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= = = 
0345« المترجم 

يقدم هذا الكتاب دروساً تعليمية عديدةفي مجال التعلم العميق ويتميز الكتاب ببساطة لغته 

وسهولة فهمها من قبل القارئ مع شرح مميز مدعم بالأمثلة والتمارينفي كل فصل. 
عند انتهائي من قراءه هذا الكتاب احببت ان اترجم هذا الكتاب وبعد التواصل مع المؤلف 
الاستاذ ميلاد وزان لم يبد مانعا من ترجمته الى العربية. ولله الحمد ترجمت الكتاب الى العربية 
لقد اخترت كتاب "يادكيرى عميق: اصول» مفاهيم و رويكردها" للأستاذ ميلاد وزان لما رأيته 
من جودة هذا الكتاب. وللمنهجية التى اتبعها المؤلففي ترتيبه وبساطة شرحه. لقد حاولت قدر 
المستطاع ان اخرج بترجمة ذات جودة ile‏ ومع هذا يبقى عملاً بشرياً يحتمل النقص. BU‏ 
كان لديك أي ملاحظات حول هذا الكتاب. فلا تتردد بمراسلتنا عبر بريدنا الالكتروني 


. alaa.taima@qu.edu.iq 


نأمل ان يساعد هذا الكتاب كل من يريد ان يدخلفي مجال التعلم العميق ومساعدة القارئ 
العربي على تعلم هذا المجال. اسأل الله التوفيقفي هذا العمل لأثراء المحتوى العربي الذي يفتقر 
أشد الافتقار إلى محتوى جيد ورصينني مجال الذكاء الاصطناعي وتعلم IY‏ والتعلم العميق. 
ونرجو لك الاستمتاع مع التعلم العميق ولا تنسونا من صالح الدعاء. 


د. علاء طعيمة 
Aus‏ علوم الحاسوب وتكنولوجيا المعلومات 
جامعة القادسية 


العراق 


مقدمة المؤلف 


يعد بناء نظام ذكي قادر على استخراج تمثيلات عالية المستوى للبيانات أمرًا ضروريًا 
في العديد من القضايا المتعلقة بالذكاء الاصطناعي. تظهر الحجج النظرية والبيولوجية 
أنه لبناء مثل هذه الأنظمة » هناك حاجة إلى نماذج معمارية عميقة تتضمن العديد من 
طبقات المعالجة غير الخطية. 


التعلم العميق هو مجموعة فرعية من أساليب التعلم الآلي التي يشار إليها أيضًا باسم 
التعلم التمثيلي. يعد التعلم التمثيلي أو تعلم الميزات أسلويًا يمنح الجهاز القدرة على 
اكتشاف العلاقات Bb‏ من البيانات الأولية. أصبحت هذه القدرة المهمة والميزة 
الرئيسية للتعلم العميق ممكنة من خلال التعلم في طبقات مختلفة في بنية الشبكة. 


قبل ظهور التعلم العميق » اعتمدت أساليب التعلم الآلي التقليدية بشكل كبير على 
التمثيلات (اختيار الميزات) المستمدة من البيانات. تتطلب هذه الأساليب خبيرًا في 
مجال الموضوع لإجراء استخراج الميزات يدويًا. ومع ذلك . يعد استخراج الميزات 
يدويًا عملية صعبة وتستغرق وقتا طويلاً. كان ظهور التعلم العميق قادرًا على استبدال هذه 
الأساليب التقليدية بسرعة. GY‏ يمكنه استخراج الميزات BE‏ لتناسب أي مشكلة. 


في السنوات الأخيرة > أصبح التعلم العميق المحرك الرئيسي للحلول المبتكرة 
لمشاكل الذكاء الاصطناعي ٠‏ والتي أصبحت ممكنة من خلال زيادة كمية البيانات 
ci Lal‏ وزيادة موارد الحوسبة وتحسين التقنيات في التدريب على الشبكة العميقة. قدم 
التعلم العميق مجموعة واسعة من التغييرات في صناعة التكنولوجيا اليوم » لذلك سيكون 
فهم وكيفية عمل التعلم العميق مفيدا وضروريًا لمتخصصي البرمجيات في عالم اليوم. 


باستخدام أحدث المراجع العلمية وخبرات المؤلف. تم تجميع هذا الكتاب 
وتجميعه لمجموعة واسعة من الباحثين والطلاب وأصحاب الصناعة والمهتمين بالتعلم 
العميق حتى يتمكنوا من اكتساب المعرفة الكافية بالمبادئ والمفاهيم الأساسيةني هذا 
المجال. أيضاء نظرًا OY‏ هذا الكتاب يغطي المواد اللازمة لدورة التعلم العميقفي 
الدراسات: Lbs!‏ فيمكة of‏ بكرن sd) Moe eye‏ الذورة بالإضافة إلى الدرؤسن 
الاختيارية لطلاب السنة النهائية الجامعيينفي هندسة الكمبيوتر. لذلك تم بذل كل جهد 


لتقديم محتويات الكتاب بطريقة بسيطة وطلاقة ومفهومة؛ جنبًا إلى جنب مع أمثلة لفهم 
أفضل حتى يمكن فهمها من قبل مجموعة واسعة من القراء. 


يؤكد هذا الكتاب على فهم مبادئ ومفاهيم التعلم العميق. مع وجهات نظر حول 
مناهج التعلم المختلفة. ومع ذلك هذا لا يعني أنه يمكن وصف جميع جوانب التعلمفي 
مجلد واحد؛ نحن لا ننوي القيام بذلك أيضًا.في الواقع» هدفنافي كتابة وتجميع محتويات 
هذا الكتاب هو اكتساب المعرفة الكافية بالتعلم العميق ومقارياته المختلفة من خلال 
التأكيد على الموضوعات الهامة والجديدة وتقديم رؤية شاملة للتعلم العميق. 


على الرغم من أن محتويات هذا الكتاب مفهومة: إلا أنها مكتوبة على أساس أن 
القارئ لديه معرفة كافية بالتعلم الآلي. من المؤكد أن امتلاك أساسيات التعلم الآلي 
سيضاعف من فهم هذا الكتاب. ومع ذلك» خلال عرض المحتويات» تم بذل كل جهد 
ممكن لتقليل هذه المتطلبات الأساسية للتعلم الآلي. 


يتكون هذا الكتاب من ستة فصول سنشير إلى محتوى هذه الفصول بإيجاز كما في 
أدناه: 


" الفصل الأول مقدمة إلى التعلم JU‏ والتعلم العميق: يبدأ هذا الفصل بتعريف 
التعلم. بعد ذلك يتم تلخيص ومقارنة مفهوم التعلم SV‏ ومقارباته المختلفة 
مثل: التعلم الخاضع GLOW‏ والتعلم غير الخاضع BOW‏ والمعزز. وشبه 
الإشراف. والإشراف SI‏ والنشطء والاونلاين» ومتعدد المهام» والانتقالي. 
فيما يلي يتم تقديم تعريف للتعلم العميق وكيف يعمل» ويتم شرح أهميته 
والتحديات والاختلافات مع التعلم الآلي وفي نهاية الفصلء يتم ذكر تطبيقاتهفي 
العالم الحقيقي. 

= الفصل الثاني التعلم العميق الخاضع للأشراف: في الفصل الثاني يصف 
الكتاب الشبكات العصبية الاصطناعية وهيكلها وعملية التعلم والمفاهيم 
المطلوبة مثل: دالة التنشيطء دالة الخسارة» مناهج تهيئة الاوزان الاوليةء التحسين 
والتحدياتفي تعلم الشبكات العميقة.في الجزء المتبقي من الفصل» ستتعرف 
على oct‏ من eT‏ شبكات dl‏ العميق Ue ues‏ وهما الشيكات المتكرزة 
والشبكات الالتفافية. 


* الفصل الثالث- تمثيل التعلم بدون اشراف عميق: في هذا الفصل. سنصف 
هيكل المشفر الذاتي وأنواعه. بعد ذلك» سنقارن بين النماذج الإنتاجية والقابلة 
للفصلء وأخيراً سنقوم بفحص أنواع نماذج التوليد العميق. 

* الفصل الرابع - التعلم المعزز العميق:في هذا الفصلء سنرى لماذا لا يمكن حل 
بعض المشكلات من خلال مناهج التعلم الخاضعة للإشراف وغير الخاضعة 
للإشراف. والحاجة إلى التعلم المعززفي هذه المشكلات.في استمرار للفصل. 
سوف نتعامل مع الأساليب الكلاسيكية المختلفة لحل المشكلات من خلال 
التعلم المعززء وفي النهاية» سنرى سبب ظهور مجال بحث جديد يسمى التعلم 
المعزز العميق» وسوف ندرس مناهجه. 

»* الفصل الخامس- التعلم الانتقالي العميق: في الفصل الخامس من ET‏ 
سوف ندرس التعلم SEY‏ ودوافع استخدامه. وفوائده. واستراتيجيات 
استخدامه. وطرقه المختلفة. 

* الفصل السادس - التعلم العميق الهندسي: الفصل الأخير من الكتاب مخصص 
لحقل بحث جديد يسمى التعلم العميق الهندسي.في هذا الفصل» ستتعرف على 
بنية الرسم البياني وشبكات الرسم البياني العصبية وتعلم التمثيل البياني وشبكات 
ارتباط الرسم البياني. وتجدر الإشارة إلى أنه تم النظرفي هذا الفصل بعبارات dale‏ 
ولم تتم مناقشته بالتفصيل. 

في النهاية» يُرجى من القراء الأعزاء إخباري بأي انتقادات أو اقتراحات أو إذا رأيت أي 
Juss‏ في AS‏ 


ميلاد وزان 
شتاء 1399 


vazanmilad gmail.com 


المحتويات 


الفصل الأول: مقدمة في التعلم الآلي والتعلم العميق ES‏ 
المقدمة بز[ ANS EE E E A‏ 
ماهوالتعلم؟ ETN AETA EAA O ETETEA‏ 
تعلم الالة “از 11033 
البرمجة التقليدية مقابل التعلم الآلي O A AAEE A‏ 
التعلم الخاضع للاشراف ro‏ ا O‏ 
التعلم غير خاضع للاشراف اوم موس 20 
التعلم المعزز ME‏ ————— 21000 

الفرق بين التعلم الخاضع للإشراف preg‏ الخاضع للاشراف والمعزز عم لي QV‏ 
التعلم شبه الخاضع للاشراف اناسع ماطس لعاف انعا اموه دود وو DA DSSS‏ 
التعلم الخاضع للإشراف الذاتي ما ال ل ا e‏ 
التعلم الفعال ااا e EE‏ 
التعلم الاونلاين MEN DR E‏ يه 

PA. EEEE O AE E E E E M cutaawaeatiaeeeases التعلم متعدد المهام‎ 

التعلم الانتقالي 0000 QAS‏ 
الفرق بين التعلم الانتقالي والتعلم متعدد un foLa.oJI‏ 
التعلم التمثيلي ae coach a‏ ——————— | 

البيانات التدريبية والتجريبية والتحقق من الصحة P MAC CE EOE‏ 
التعلم العميق DONS SSS NS‏ 
تاريخ التعلم العميق 111111131119900 
كيف يعمل التعلم العميق؟ DS EO nM EE E Es‏ 
سبب شعبية التعلم العميق e E BE‏ ساس سس D‏ و29 
سبب Goal‏ التعلم العميق EEE‏ 
التحديات في التعلم العميق E‏ 
مقارنة بين التعلم الآلي والتعلم العميق Aa‏ 
العلاقة بين الذكاء الاصطناعي والتعلم الآلي والتعلم العميق I‏ 


y ————————— أسئلة للمراجعة‎ 
CD HUE NENNT RENTRER الفصل الثاني: التعلم العميق الخاضع للأشراف‎ 
NA AEA ONU الشبكة العصبية امامية التغذية, المتكررة والالتفافية‎ 
AO mc [1 E المقدمة‎ 
PERTENECER RE الشبكات العصبية الاصطناعية‎ 
AD ااا‎ E بيرسيبترون‎ 
AT O UE NAM UEM UE شبكات التغذية العميقة‎ 
oA E M E دالة التنشيط‎ 
CEREREM TC TD IT دالة الخسارة‎ 
SSO 0007-7 دوال الخسارة المتعلقة بالتصنيف‎ 
Be eres icteric ate ena UE. دوال الخسارة المتعلقة بالانحدار‎ 
Lye ERU طرق تهيئة القيم الأولية للاوزان‎ 
BRR re ee تهيئة جميع الأوزان إلى الصفر‎ 
DTS التهيثة العشوائية‎ 
DS RR O E A E E UR CREE التعلم الانتقالي‎ 
58 RC اا ل ا‎ A تهيثة القيم الأولية الموحدة گلوروت‎ 
I RR" تهيئة القيم الاولية هي‎ 
n E DR RUE التحسين وتحديث الاوزان‎ 
6T. niacin معطو ونيو‎ tere eer ee rere والصغير‎ (SGD) الانحدار الاشتقاقي العشوائي‎ 
pP E E alyAlal 
RR Walal 
69e IIT MN UEM II EIU recor cree آرآماسپروب‎ 


65 ttti tat b E M خوارزمية الانتشار الخلفي للخطاً‎ 


تحديات التدريب في الشبكات العميقة TRAC‏ |[ ذا[ (Dt‏ 
تلاشي وانفجار الانحدار sada tates een tabtatatssahstateeetee ks‏ ب00003 1 0 
طرق لتحديد مشاكل تلاشي وانفجار الانحدار؟ TIARA ERR‏ 

طرق القضاء على مشاكل تلاشي الانحدار وانفجار الانحدار e EE E A‏ 
الضبط الزائد OR O UN AACN DNs as a‏ 
التوقف المبكر aa O Gla Gls ssi edi ctsle ite‏ 
الحذف العشوائي EO OOO‏ 
التسوية بالدفعات 000 |[ CORE RO‏ 2[ 
توافر 639239 البيانات التعليمية Bl rien EA EET‏ 
تحسين المعاملات الفائقة aaa‏ امعد اح امم حو ا ل CD‏ 
الاختلافات بين معاملات النموذج والمعاملات الفائقة في الشبكات العصبية؟ ...82 
ضبط المعاملات الفائقة dee close tena sr tease i‏ اا 
الضبط اليدوي للمعاملات الفائقة (التجربة والخطاً) BS ES‏ 
البحث الشبكي T EEEE Ea‏ 
البحث العشوائي 000 eA‏ 
تحسين بايزى :1:2 
الشبكة العصبية المتكررة (RNN)‏ ا T EEEE E‏ 
هيكل شبكة عصبية متكررة بسيطة CTR bene‏ 
أنواع Gf‏ الشبكة العصبية المتكررة SOARES‏ 
تدريب الشبكة العصبية المتكررة € — OANA‏ 
الانتشار الخلفي بمرور الوقت ممع 
شبكات الذاكرة قصيرة المدى تدوم لفترة أطول Tea (LSTM)‏ 
وحدات إرجاع البوابة TLF ERR RR RR ence eat ane (GRU)‏ 


آلة تورينج العصبية ss (NTM)‏ ماع مو قم لم 10424 


1 7 RRR aE ST الكتابة‎ 
DIO tp RM ROI M CNN الشبكات العصبية الالتفافية‎ 
TID ا‎ ONE CU UE ER RET الشبكات العصبية الالتفافية‎ à uo 

a li ا‎ RUE طبقة الالتفاف‎ 

DISSES ل‎ NN M DU NM EU E طبقة الدمج‎ 

TG RT E الطبقة المتصلة بالكامل‎ 
11 الحشو والخطوات‎ 
LIO ""——————————— À CNN التدريب في‎ 
AOE لتصنيف الصور‎ CNN أسباب استخدام‎ 
ALCO O INIM CNN بنيه‎ 
DAI OR TT LeNet 

WDD P ————————————— HÀ AlexNet 

12 — ————— n À— á ZFNet 

IA re UR ne O O ie ee kena entra ROTE NEN CNN تحديات‎ 
TO O EEE E EE E EN EEE E OE ES O RUNI NU خلاصة الفصل الثاني‎ 
اا‎ vad i ava visa vow us isa vg a ve wt OOO أسئلة للمراجعة‎ 
AV الفصل الثالث: التعلم التمثيلي غير الخاضع للاشراف العميق‎ 
O المشفرات الذاتية والنماذج الانتاجية‎ 
IA) EA ATEA المقدمة اا‎ 
aA o APENA EEEE التعلم النشط والتعلم التمثيلي بدون إشراف‎ 
130 وا ال و مرو ال الم ا و د‎ SSS المشفرات الذاتية ارو نل ا الا‎ 
jc MEE PET المشفرات الذاتبة‎ GL 
DII MSN ND EI INCID, معاملات المشفرات الذاتية‎ 
134 DS كيف يعمل المشفر الذاتي؟‎ 


المشفر الذاتي الانكماشي 1غ 


المشفر الذاتي لإزالة الضوضاء MS O E‏ 


المشفر الذاتي غير الكامل sss‏ 136 
المشفر الذاتي المبعثر RERUM‏ 137 
المشفر الذاتي الالتفافي RR‏ 138 
النماذج ó j Lo-oJI‏ والانتاجية RM‏ 139 
أنواع النماذج الانتاجية 775ب IAO‏ 
النموذج المولد العميق MI 00 M M‏ 
المشفر التلقائي المتغير M‏ |ز [ز[ز ز ز ز ز ز ز TAS‏ 
شبكات الخصومة التوليدية 0000101 0 0 0 E‏ 
آلة بولتزمان 110100000 
آلة بولتزمان المحدودة IOI E E T‏ 
شبكات alàic Jl‏ العميقة RNC‏ 

نماذج التوليد القائمة على التدفق sss‏ 165 
النماذج ذات التدفق المعادل mot‏ | 
النماذج ذات التدفق الذاتي ene nm ae ee ene‏ إ 1 101011010107131 

خلاصة الفصل الثالث ووببب 00 virg Lacs hahaha‏ 
أسئلة للمراجعة iy A E E E E‏ 
الفصل الرابع : التعلم المعزز العميق ————— 175 
التعلم المعزز R E‏ ا ل [Z‏ 
التعلم المعزز مقارنة بالتعلم الآلي dU dd E s‏ 
قرارات عملية ماركوف ae‏ 001000 
الوكيل ا ————————" | 
خوارزميات قائمة على القيمة 18 
الخوارزميات المستندة إلى السياسة 1110100 
الاستخراج مقابل الاستكشاف JOO EEE A E E AT‏ 


بناء على النموذج مقابل بدون نموذج TSI saban‏ 


IUe ce Re Re TCT التنبؤ مقابل المراجعة‎ 


المناهج الكلاسيكية للتعلم المعزز [pomi ARR‏ 
البرمجة الديناميكية اا ا 11 
مونت كارلو 1 
تعلم الفرق الزمنى LOGS a E eek nee‏ 
البحث في السياسة 2111110110 
نقد الوكيل PLUME O E E A‏ 
الطريقة المشتركة (داينو-كيو) ARR,‏ يا ucc‏ 202 
التعلم المعزز العميق E f T uti UL aaah canes‏ 2002521 
شبكة كيو العميقة ie os ou (DQN)‏ و RS‏ 2 2095 
شبكة كية العميقة المزدوجة P EE [1 EEA‏ 
شبكة كيو العميقة معا ZUG T‏ 
خلاصة الفصل الرابع DON E‏ 
أسئلة للمراجعة RS RA EG‏ 200 
الفصل الخامس: التعلم الانتقالي العميق DIOS ca Sng Me RR‏ 
المقدمة SLES SDS A E E‏ 
التعلم الانتقالي Pun‏ 
olo‏ نستخدم التعلم الانتقالي؟ DIS I A M eer MM.‏ 
التعلم الانتقالي العميق ا 20 
الدافع لاستخدام التعلم الانتقالي العميق acce yT‏ 216 
فوائد التعلم الانتقالي DLTAN‏ 
استراتيجيات التعلم الانتقالي العميق DI SOT‏ 
مناهج التعلم الانتقالي العميق E‏ 220 


التعلم الانتقالي العميق القائم على العينة D AER E NEUE‏ 


Dl ELI E E EE EAT, التعلم الانتقالي العميق القائم على الخصومة‎ 


التعلم الانتقالي العميق القائم على التخصيص CI‏ 222 
التعلم الانتقالي العميق القائم على الشبكة REPE‏ 222 
خلاصة الفصل الخامس VOX‏ 
أسئلة للمراجعة QOD m ——————————— ——À‏ 
الفصل السادس : التعلم العميق الهندسي 11131100 
التعلم التمثيلي بالرسم البياني ————————— 22 
المقدمة Tec DELI‏ 7 100000042( 260 
التعلم العميق الهندسى O E ET E EEA‏ 
الرسم البياني 007 زازا1 1[ 21 
شبكات الرسم البياني العصبية v2‏ 
الشبكات العصبية لنقل الرسائل 20110 
تعلم تمثيل الرسم البياني ————————————— DBD‏ 
شبكة الرسم البياني الالتفافية NN eens‏ ا ا "zy‏ 
خلاصة الفصل السادس TT‏ 
أسئلة للمراجعة T‏ ا 


: Sla al 


د نظرة عامة على التعلم الآلي. 

T‏ ماهو التعلم العميق؟ 

n‏ ماهو الفرق بين التعلم الآلي والتعلم العميق؟ 

n‏ العلاقة بين النكاء الاصطناعي والتعلم AI‏ والتعلم العميق. 
Leal n‏ وتطبيق التعلم العميق. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


المقدمة 


الهدف الأساسي في مجال الذكاء الاصطناعي هو إعطاء أجهزة الكمبيوتر القدرة على فهم 
العالم من حولهم والتفاعل معه بطريقة ذكية. على مدى السنوات العديدة الماضية » برز 
التعلم العميق كواحد من أكثر الأساليب الواعدة لتحقيق هذا الهدف. 


التعلم العميق هو طريقة للتعلم الحسابي للمفاهيم عالية المستوى في البيانات 
وتمثيلها باستخدام شبكات عصبية هرمية عميقة وهي جزء من أساليب التعلم الآلي. 
لذلك » سيكون من المفيد مراجعة مفاهيم التعلم الآلي قبل التعلم العميق. OY‏ العديد 
من المفاهيم المستخدمة في الشبكات العصبية مثل التعلم الخاضع الإشراف والتعلم غير 
الخاضع للاشراف والمعزز والعديد من الموضوعات الأخرى تنشأ من التعلم الآلي. 
لذلك. في هذا القسم سيكون لدينا لمحة موجزة عن هذه المفاهيم لفهم التعلم العميق 
بشكل أفضل. لكن قبل أن ندخل في ذلك e‏ دعنا نعود SS‏ وننظر إلى ماهية التعلم. 


عندما نتحدث عن التعلم البشري » فإننا نفرق بين التعلم والحفظ والذكاء. بالطبع « تذكر 
أرقام الهواتف هو نوع من التعلم » ولكن عندما نقول التعلم » فإننا غالبا ما نعني És‏ 
آخر. يمكن تعريف التعلم على أنه تحسين الأداء في مهمة معينة باستخدام الخبرة 
والممارسة. يتم تصنيف السلوك الذكي للإنسان من خلال التعلم في التجارب « والتعلم 
هو مصدر المرونة في حياة الفرد. 

تخيل استخدام بطاقة تعليمية لتعليم الطفل الفرق بين القطة والكلب. نعرض بطاقة 
للطفل » ويختار الطفل واحدة c‏ ثم يتم وضع البطاقة في Jol‏ العمودين المناسبين لاختيار 
الصواب أو الخطأ. من خلال تدريب الطفل » سيتحسن أدائه وسيكون قادرًا على التعرف 
والتمييز بين القطط والكلاب. من أجل قدرة هذا الإدراك والمعرفة في الإنسان . ما 
نحتاجه فقط هو الأمثلة. بمجرد أن يتقن الطفل عينة البطاقات التعليمية c‏ لن يتمكن فقط 
من تصنيف الصور على البطاقات التعليمية » ولكن أيضًا معظم صور الكلاب والقطط. 
هذه القدرة على التعميم لتطبيق المعرفة المكتسبة على أمثلة لم يرها من قبل هي السمة 
الرئيسية للتعلم البشري والآلي. بالطبع » يعد التعلم البشري Éa‏ أكثر تقدمًا حتى من 


الفصل الاول: مقدمة فى التعلم الآلى والتعلم العميق 


خوارزميات التعلم SY‏ الأكثر تقدمًا. لكن ما هو تعلم الكمبيوتر؟ يصف توم ميشيل 
(1997) التعلم في برامج الكمبيوتر على النحو التالي: 


" أي برنامج كمبيوتر يعمل على تحسين bl‏ في عمل ذي خبرة معينة '. 
وفي تعريف أكثر دقة فإنه يعبر عن: 


" سيكون برنامج الكمبيوتر قادرًا على التعلم من خلال النظر في تجربة E‏ للمهمة Gi, T‏ 
Lad‏ الأداء P‏ . إذا تحسن أدائه بعد تجربة E‏ للمهمة "T‏ 


à y‏ لهذا التعريف » يبرز سؤالان: كيف يعرف الكمبيوتر ما إذا كان يؤدي أداءً أفضل 
في مهمة معينة » وكيف يعرف LAS‏ القيام بذلك e‏ وسيتم تحسين هذه المهمة. تُنشى 
الإجابات على هذه الأسئلة تصنيقاً للعديد من الأساليب المختلفة للتعلم الآلي « والتي 
سنصفها أدناه تحت عناوين التعلم الخاضع للإشراف وشبه الإشراف وغير الخاضع 
للإشراف. 


تعلم الالة 


خلال اليوم » OU‏ ما نواجه آلات تقوم ميكانيكيًا بالعمل المقرر لها القيام به. ولكن 
ماذا لو كانت هذه الآلات . مثلنا مثل البشر e‏ يمكن أن تتعلم من التجربة . وإذاكان بإمكان 
الآلات تغيير سلوكها فى بيئة خاضعة للاشراف وأخلاقية لتكون أكثر كفاءة؟ فى السنوات 
الأخيرة » تطورت الأنظمة التكنولوجية من أنظمة ثابتة سلبية إلى أنظمة مؤتمتة وديناميكية 
تتحسن بمرور الوقت. هذا النهج يسمى التعلم الآلي. 


التعلم الآلي هو فرع من فروع الذكاء الاصطناعي حيث تتعلم الآلة أداء المهام التي لم 
يتم التخطيط لها بشكل صريح e‏ ويتم تحسين أداء الجهاز GEE‏ من خلال الخبرة في 
أداء هذه المهمة. لقد قطعت محاولة إنشاء آلة تفكر مثل الإنسان by‏ طويلاً. لقد تحول 
التعلم الآلي من نظام غامض إلى قوة صناعية واجتماعية رئيسية في صنع القرار الآلي « 
من الأعمال التجارية عبر الإنترنت والإعلان إلى التعليم والرعاية الصحية. أصبح التعلم 
الآلي تقنية عامة قوية للعالم نظرًا لقدرته القوية على التعلم من خلال التكيف مع البيانات 
المصنفة وغير المصنفة. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


تبدأ عملية التعلم الآلي باستخدام البيانات الأولية لاستخراج معلومات مفيدة 
للمساعدة في اتخاذ قرارات أفضل. في تعريف أكثر دقة » يمكن التعبير عن التعلم الآلي 
على النحو التالي: يركز التعلم JY‏ على تصميم النماذج التي في مجال «aene‏ تم 
الحصول على خوارزميات الكمبيوتر tly‏ على بيانات التدريب المعطاة لنموذج التعلم 
تلقاتيًا من خلال التجربة والاختبار من البيانات » بحيث في مواجهة البيانات الجديدة في 
نفس المجال » يمكن أن تظهر سلوكا eus‏ بالبشر. يمكن تنفيذ التعلم JW‏ وتنفيذه 
بأساليب مختلفة. مناهجها الرئيسية الثلاثة هي التعلم الخاضع للإشراف والتعلم غير 
الخاضع للإشراف والتعلم المعزز. بالإضافة إلى هذه الأساليب الثلاثة 6 هناك مناهج 
أخرى سنتعرف عليها فيما يلي. 


البرمجة التقليدية مقابل التعلم الآلي 


عندما يتعلق الأمر باستخدام أجهزة الكمبيوتر لأداء مهام بشرية » يجب علينا دائمًا إعطاء 
التعليمات للكمبيوتر في شكل برنامج كمبيوتر. لغات البرمجة التقليدية هي عملية يدوية 
(بمعنى أنه يجب على المبرمج إنشاء البرنامج) وعادة ما يأخذ البيانات ومجموعة من 
القواعد كمدخلات . ومن خلال تطبيق هذه القواعد على البيانات » يحصلون على 
الإجابات كمخرجات. في التعلم اللي > من ناحية أخرى c‏ يتم تقديم البيانات والإجابات 
(أو العلامات) كمدخلات » ويتم استخدام القواعد (النماذج) كمخرجات (الشكل 1- 
1. نمط التعلم الآلي له قيمة لا مثيل لها. OY‏ يسمح للآلة بتعلم Ael‏ جديدة في مساحة 
معقدة وكبيرة يصعب على البشر فهمها. 


N‏ البرمجة التقليدية 


الاجابات الاجابات القواعد 


القوا ت 
ڪڪ 


البيانات 


الشكل 1-1: البرمجة التقليدية مقابل التعلم الآلي 


الفصل الاول: مقدمة فى التعلم الآلى والتعلم العميق 


التعلم الخاضع للاشراف 


فكر في نفسك كطالب في فصل الرياضيات حيث يشرف المعلم على كيفية حل مشكلة 
أو حل مشكلة بشكل صحيح أو خاطى. هذا الموقف مشابه لما تتبعه خوارزمية الخاضعة 
للاشراف. في وضع التعلم . يراقب النظام التعلم لكل تعليمات إرشادية es‏ على عنصر 
مزدوج من المدخلات والتسمية » وهو ناتج المشكلة. تعني مجموعة البيانات الموسومة 
أن كل عضو في مجموعة التدريب يحصل على إجابة أو حل. الهدف هنا هو تكييف 
النظام بطريقة تمكن إدخال النظام الجديد من توقع المخرجات الصحيحة Fly‏ على ما 
تعلمته حتى الآن من بيانات التدريب. في التعلم الخاضع للاشراف. إذا كانت بيانات 
مسئلة التعلم منفصلة . فهي مسئلة تصنيف. وإذاكانت قيم البيانات مستمرة c‏ فإنها تسمى 
الانحدار(التوقع). 


الت 
يحاول التصنيف إجراء اتصال بين عينات التدريب والفتات المحددة مسبقًا للمشكلة. على 
سبيل المثال » افترض أن هناك مجموعة من صور الحيوانات مثل الكلاب والقطط والأرانب 
والنمور وما إلى ذلك. يسمى وضع كل صورة من هذه الصور الحيوانية في Lets‏ الخاصة بعملية 
التصنيف. في هذا المثال » في هذه الطريقة » يتم تدريب النظام على عدد كبير من الصور Ur‏ 
إلى جنب مع العلامات (التسميات) » حتى يجد النظام slo‏ جيدا في تصنيف الصور. 


الانحدار 


افترض أن لدينا مجموعة من القيم. على سبيل المثال » هناك بيانات عن أحوال المياه والطقس 
بخصائص مختلفة » وبعضها مفقود. يعتمد تقدير هذه القيم المفقودة على العلاقة بين 
البيانات عن طريق الانحدار. بمعنى آخر . يتنبأ بقيمة عددية من خلال النظر فى أحد 
المدخلات. l‏ 


التعلم العميق: المبادئ والمفاهيم والاساليب 


التعلم غير خاضع للاشراف 

يحدث التعلم بدون إشراف بدون مساعدة مشرف او مراقب GLS e‏ كما تتعلم السمكة 
السباحة بمفردها. في التعلم غير الخاضع للإشراف « تكون خوارزمية التعلم مخصصة 
لمدخلات محددة c‏ بدون مخرجات محددة. الهدف من هذا التعلم هو العثور على هذه 
المخرجات بمفردها . والتي يتم إجراؤها بواسطة الخوارزمية نفسها عن طريق تحليل 
البيانات وتحديد LL‏ المخفية والمحددة الموجودة في ES‏ البيانات. التجميع 


(التكتل) هو مثال على هذا النوع من التعلم c‏ والذي يهدف إلى اكتشاف مجموعات من 
العناصر المتشابهة Fly‏ على التشابه المقاس . أو لفهم أوجه التشابه في AS‏ البيانات. 


Ul jo‏ التعلم غير الخاضع للاشراف 
e‏ يتطلب وضع العلامات على البيانات الكثير من العمل والمال. التعلم غير 
الخاضع للإشراف يحل هذه المشكلة من خلال التعلم من البيانات غير 
المسماة. 
e‏ إنه مفيد جد في العثور على أنماط البيانات التي لا يمكن العثور عليها باستخدام 
الطرق التقليدية. 
e‏ يتم تقليل حجم البيانات بسهولة باستخدام هذا النوع من التعلم. 


عيوب التعلم غير الخاضع للاشراف 
e‏ قد تكون النتيجة أقل دقة من طريقة التعلم الخاضع الإشراف. لأننا لا نملك أي 
تسميات للبيانات ويجب أن يتعلم النموذج بالمعرفة المكتسبة من البيانات 
الأولية. 
e‏ كلما زادت الميزات (السمات) « زادت تعقيدها. 
lg] e‏ عملية تستغرق Gy‏ طويلاً. OY‏ مرحلة تعلم الخوارزمية قد تستغرق الكثير 
من الوقت لتحليل وحساب جميع الاحتمالات. 


التعلم المعزز 
التعلم المعزز يحل المشكلة بطريقة مختلفة. يعتمد التعلم المعزز على التفاعل مع البيئة 


وتتعلم الخوارزمية التفاعل مع البيئة وحدها.في هذا النوع من التعلم تتعلم الخوارزمية 
من خلال آلية التغذية الراجعة والتجارب السابقة وتحاول حل المشكلات بنفس الطريقة 


الفصل الاول: مقدمة فى التعلم الآلى والتعلم العميق 


التي يمثل بها البشرفي الحياةء وتتعلم LAS‏ تحسين سلوك الوكيل Uo‏ على وجود أو عدم 
وجود المكافآت. هدفها هو العثور على مجموعة من أنماط الإجراءات. عن طريق 
اختبارها ومقارنتها جميعًا للحصول على أعلى درجة مكافأة. لا يتطلب هذا النوع من 
التعلم مجموعة بيانات تعليمية. بمعنى BT‏ إنه ليس Gs‏ خاضعًا للإشراف ولا تعلمًا 
غير خاضع للإشراف. 


الفرق بين التعلم الخاضع للإشراف وغير الخاضع للاشراف والمعزز 


التعلم الخاضع للاشراف هو عندما يستخدم النموذج مجموعة بيانات ذات علامات 
للمساعدة في حل مشكلة ما. لا يتطلب التعلم غير الخاضع للإشراف بيانات مصنفة › 
والنموذج نفسه هو الذي يحل المشكلة بمفرده وبدون مراقب خارجي من خلال اكتشاف 
الأنماط المخفية. على عكس هذين النهجين » لا يتطلب التعلم المعزز مجموعة من 
البيانات ويتفاعل الجهاز أو الوكيل مع بيئته للحصول على أفضل إجراء لحل المشكلة 
عن طريق التجربة والخطأ وتلقي المكافآت من البيئة. باختصار » في التعلم الخاضع 
للإشراف . الهدف هو إنشاء صيغة تعتمد على قيم المدخلات والمخرجات. في التعلم 
غير الخاضع للإشراف . تم العثور على اتصال بين قيم الإدخال وتجميعها. في التعلم 
المعزز c‏ يتعلم الوكيل من خلال التفاعل مع البيئة. بناءَ على ذلك » يمكن رؤية الفرق بين 
هذه الأساليب الثلاثة للتعلم JW‏ في الجدول 1-1. 


التعلم شبه الخاضع للاشراف 


التعلم شبه الخاضع للإشراف هو مزيج من التعلم الخاضع للإشراف والتعلم غير الخاضع 
للإشراف. أي أنه يحتوي على بيانات مصنفة وغير مصنفة.في هذه الطريقةء Mel‏ يتم 
استخراج البيانات غير المسماةء والتي تمثل ميزات بيانات الإدخالء ثم تستخدم هذا 
التمثيل للسمات المكتسبةفي التعلم الإشرافي. يتم استخدام هذا الأسلوب بشكل شائع 
عند توفر القليل من البيانات ذات العلامات وتركز على تقليل أوجه القصورني كل من 
النهج الخاضعة للإشراف وغير الخاضعة للإشراف. والغرض الرئيسي منه هو الاستخدام 
الفعال لجميع البيانات المتاحة. وليس البيانات المصنفة فقط. 


الجدول 1-1 مقارنة التعلم الخاضع للإشراف وغير الخاضع للاشراف والمعزز 


التعلم العميق: المبادئ والمفاهيم والاساليب 


المؤشر | التعلم الخاضع للإشراف التعلم غير الخاضع للإشراف التعلم المعزز 
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التعلم الخاضع للإشراف الذاتي 


بالمقارنة مع التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف e‏ فإن التعلم 
الخاضع للإشراف الذاتي يشبه إلى حد كبير التعلم غير الخاضع للإشراف ولكنه يتطلب 
Call‏ بيانات مصنفة. في هذا النوع من التعلم » يتم تدريب النموذج على العلامات التي 
يتم الحصول عليها BA‏ وتمييزها من البيانات نفسها » دون تعليق توضيحي بشري. 
في هذا النهج c‏ يقوم بتدريب نموذج التعلم الخاص به باستخدام جزء واحد من البيانات 
للتنبؤ بالجزء الآخر وإنشاء العلامات بدقة. في النهاية . تحول طريقة التعلم هذه مشكلة 
التعلم غير الخاضعة للاشراف إلى مشكلة خاضعة للإشراف. يمكن مقارنة التعلم الذاتي 
مع المناهج الأخرى على النحو التالي: 


* التعلم الخاضع للاشراف الذاتي مقابل التعلم الخاضع للإشراف. 


من السمات الشائعة للتعلم الخاضع للإشراف والإشراف الذاتي أن كلا الطريقتين 
تسميان نماذج التعلم من مجموعة من البيانات التعليمية. ومع ذلك » لا يحتاج التعلم 
الخاضع للاشراف الذاتي إلى إضافة العلامات يدويًا e‏ حيث يقوم بإنشائها. 


* التعلم الخاضع للاشراف الذاتي مقابل التعلم شبه الخاضع للاشراف. 


يستخدم التعلم شبه الخاضع للاشراف البيانات التعليمية ذات العلامات اليدوية للتعلم 
الخاضع للإشراف وأساليب التعلم غير الخاضعة للإشراف للبيانات غير المسماة لإنتاج 
نموذج يستخدم العلامات الموجودة ويخلق نموذجا يمكنه التنبؤ بما يتجاوز البيانات 
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المصنفة. في المقابل » يعتمد التعلم الخاضع للاشراف الذاتي US‏ على البيانات التي 
تفتقر إلى التسميات التي تم إنشاؤها يدويًا. 


" التعلم الخاضع للاشراف الذاتي مقابل التعلم غير الخاضع للإشراف. 


التعلم الخاضع للاشراف الذاتي يشبه التعلم غير الخاضع للإشراف. لأن كلا الأسلوبين 
يعملان مع مجموعات البيانات التي لا تحتوي على تسميات يدوية. في بعض 
Galea‏ يعتبر التعلم الخاضع للاشراف الذاتي مجموعة فرعية من التعلم غير الخاضع 
للإشراف. ومع ذلك ٠‏ فإن التعلم غير الخاضع للإشراف يركز على التكتل والتجميع 
وتقليل الأبعاد. بينما يتم استخدام الخاضع للاشراف الذاتي لاستخلاص استنتاجات 
حول قضايا التصنيف والانحدار. 


التعلم الفعال 


إنه نوع من التعلم شبه الخاضع للاشراف وهو طريقة تمكن النموذج من استخدام 
مستخدم بشري تفاعلي أثناء عملية التعلم لتسمية البيانات بالمخرجات المرغوبة. يسمح 
التعلم النشط بأخذ عينات المجال بطريقة تقلل من عدد العينات وتزيد من فعالية 
النموذج. سيكون هذا النوع من التعلم rie‏ عندما لا يتوفر الكثير من البيانات ويكون 
جمع البيانات الجديدة وتصنيفها أمرًا ÚK‏ 


التعلم الاونلاين 


يتم إجراء التعلم الآلي التقليدي في وضع عدم الاتصال (الاوفلاين) e‏ مما يعني أن لدينا 
الإنترنت (الاونلاين) ضروري إذا كانت لدينا بيانات تدفق. في التعلم الاونلاين « يحاول 
المتعلم تقديم أفضل التنبؤات أو القرارات باستخدام عينات من البيانات في كل مرحلة. 
يتغلب التعلم الاونلاين على مشاكل التعلم الجماعي. لأنه يمكن تحديث النموذج الذي 
تم إنشاؤه على الفور لكل عينة بيانات جديدة. يعد التعلم الاونلاين مناسبًا لتلك 
المشكلات حيث يتم تقديم الملاحظات بمرور الوقت ومن المتوقع أن يتغير توزيع 
الاحتمالية للملاحظات بمرور الوقت. لذلك e‏ من المتوقع أن يتغير النموذج قدر الإمكان 
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للحد من هذه التغييرات. أصبح التعلم الاونلاين طريقة واعدة للتعلم من تدفق البيانات 
في العديد من تطبيقات العالم الحقيقي. 


التعلم متعدد المهام 


التعلم متعدد المهام هو نوع من التعلم الخاضع للإشراف الذي يسعى إلى إنشاء نموذج 
يمكنه أداء مهام مختلفة في وقت واحد من خلال مشاركة معلومات المجال حول قضية 
معينة. الدافع الرئيسي للتعلم متعدد المهام هو إنشاء نموذج "ale"‏ يمكنه حل مهام متعددة 
في نموذج واحد بدلاً من إنشاء عدة نماذج "متخصصة" يتم تدريبها فقط لمهمة محددة. 
من وجهة نظر بيولوجية . فإن تعدد المهام مستوحى من الطريقة التي نتعلم بها نحن البشر. 
لتعلم مهام جديدة » عادة ما نطبق المعرفة التي اكتسبناها من تعلم المهام ذات الصلة. 
بالإضافة إلى ذلك » عادة ما نتعلم Yal‏ المهام التي تمنحنا المهارات اللازمة لإتقان المهام 
الأكثر تعقيدا. 


التعلم الانتقالي 


التعلم الانتقالي هو نوع من التعلم الآلي يتم فيه تدريب النموذج لأول مرةفي مهمة digas‏ 
ثم يتم استخدام بعض أو كل النموذج كنقطة بداية لمهمة ذات صلة. بمعنى آخر نريد 
استخدام ما تعلمناه من دالة مصدر واحدة لمساعدتنافي تعلم دالة أخرى مستهدفة. الغرض 
من التعلم الانتقالي هو تحسين عملية تعلم المهام الجديدة باستخدام الخبرة المكتسبة 
من حل المشكلات السابقة المتشابهة إلى حد ما. يعد التعلم الانتقالي مفيدا بشكل خاص 
في النماذج التي يتم تدريبها تدريجيّاء ويمكن استخدام نموذج موجود كنقطة انطلاق 
لمزيد من التدريب» مثل شبكات التعلم العميق. يركز التعلم الانتقالي على استخراج 
البيانات من مجال مشابه لزيادة القدرة على التعلم أو تقليل عدد العينات ذات العلامات 
المطلوبةفي المجال المستهدف. من المهم ملاحظة أن مخرجات نماذج التعلم الانتقالي 
تتأثر بالعلاقة بين المصدر والمجالات المستهدفة. إذا كان للمجال المصدر والمجال 
الهدف معرفة أقل شيوعاء فسيؤثر هذا النموذج Ube‏ على التعلم والدقة الهدف. وهو ما 
يسمى الانتقال السلبي. 
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الفرق بين التعلم الانتقالي والتعلم متعدد المهام 


يختلف التعلم متعدد المهام عن التعلم e JUS MI‏ ويختلف في كيفية نقل المعرفة. يتم تعلم 
المهام بالتسلسلفي التعلم الانتقالي ونقلها من واحد إلى آخر.في حين أن التعلم متعدد 
المهام من خلال مشاركة المعلومات بين جميع المهام يؤدي إلى أداء جيدني جميع المهام 
التي ينظر فيها نموذج واحدفي وقت واحد. 


التعلم التمثيلي! 


التعلم التمثيلي هو مجموعة فرعية من التعلم الآلي الذي يهدف إلى الحصول على ميزات 
جيدة ومفيدة للبيانات تلقائيًا > دون أن يشارك مصمم الميزات في المشكلة. نظرًا لأنه 
يمكن تفسير هذه الطريقة على أنها تعلم ميزات مفيدة » فإنها تسمى أيضًا تعلم الميزات. 
ومع ذلك » WE‏ ما تستخدم هذه الأساليب لإيجاد تمثيل جيد في المشكلات الخاضعة 
للإشراف مثل التصنيف والانحدار ؛ ومع ذلك . من الممكن تعلم التمثيل دون إشراف. 
de‏ تمثيل التعلم في البيانات الأولية رؤية المعلومات المفيدة عند إنشاء أي نموذج 
لمسائل التصنيف والتنبؤ والإنتاج. 


البيانات التدريبية والتجريبية والتحقق من الصحة 


على الرغم من أن خوارزميات التعلم SW‏ تعتبر أدوات مذهلة وقوية في التنبؤ والتصنيف. 
إلا أن السؤال الذي يطرح نفسه حول مدى دقة هذه التنبؤات » وهل هناك طريقة لقياس 
أداء النموذج؟ نظرًا OY‏ هذه الخوارزميات قد وصفت العينات » يمكن الإجابة على هذا 
السؤال بتقسيم عينات التدريب إلى عدة أقسام. من خلال تقسيم البيانات » نقوم Yl‏ 
بإجراء التدريب على جزء من البيانات » ثم نستخدم البيانات التجريبية لقياس كفاءة 
النموذج وإمكانية تعميمه. يشير التعميم إلى أداء النموذج في التعامل مع البيانات » وهو 
ما لم يلاحظه النموذج بعد في عملية التدريب. بالطبع في تصميم نماذج التعلم الآلي 
نقوم في أغلب الأحيان بتقسيم مجموعة بيانات المشكلة المطلوبة إلى قسم آخر بالإضافة 
إلى البيانات التدريبية والتجريبية » وطريقة هذا التصنيف على النحو التالي: 


1 Representation learning 


التعلم العميق: المبادئ والمفاهيم والاساليب 


" مجموعة التدريب: عادة ما تكون SÍ‏ مجموعات البيانات الثلاث هذه 
وتستخدم للعثور على معاملات النموذج. تحدد مجموعة بيانات التدريب 
العلاقة الأساسية بين البيانات وعلاماتها بأفضل طريقة ممكنة. 

= مجموعة الاختبار (التجريبية): قياس أداء النموذج Aly‏ على قدرة النموذج على 
التنبؤ بالبيانات التي ليس لها دور في عملية التعلم » مجموعة الاختبار هي نفس 
البيانات التي لم يتم رؤيتها في عملية التعلم. هذه المجموعة تقيس أداء النموذج 
النهائي. إذا كان النموذج يعمل بشكل جيد في مجموعة التدريب ويناسب Gaj‏ 
مجموعة الاختبار » أي أنه Ley‏ بالتسمية الصحيحة لكمية كبيرة من بيانات 
الإدخال التي تم تجاهلها c‏ فسيقلل الضبط الزائد .overfitting‏ وتجدر الإشارة 
إلى أن مجموعة الاختبار تستخدم عادة مرة واحدة فقط لتقييم أداء تعميم 
النموذج بشكل كامل بمجرد تحديد معاملات النموذج والمعاملات الفائقة 
بشكل كامل. ومع ذلك » يتم استخدام مجموعة التحقق لتقريب الأداء التنبئي 
لنموذج أثناء التدريب. 

= مجموعة التحقق من الصحة: في تقييم أنواع مختلفة من النماذج والخوارزميات 
للمشكلة . يتم استخدام مجموعة التحقق من الصحة. تستخدم هذه البيانات 
لضبط المعاملات الفائقة ومنع النموذج من الضبط الزائد لتحديد أفضل 


بو 


الدماغ هو أروع جزء في جسم الإنسان. يسمح لنا بتخزين OL SU‏ وتجربة العواطف أو 
حتى الأحلام. بدونها » نحن كائن بيولوجي بدائي غير قادر على أبسط التفاعلات. إن 
الدماغ بطبيعته هو ما يجعلنا كائنات ASS‏ 


يزن دماغ الطفل أقل من نصف كيلوغرام. ومع ذلك e‏ فهو قادر على حل المشكلات 
التي لا تمتلكها حتى أكبر وأقوى أجهزة الكمبيوتر العملاقة من صنع الإنسان. بعد عدة 
أشهر من الولادة » يمكن للطفل التعرف على وجوه والديه . وتحديد الأشياء المتعارضة 
وحتى تمييز الأصوات. في الطفولة المبكرة . كان لديهم فهم واضح للقواعد وحفظوا 
آلاف الكلمات. 


الفصل الاول: مقدمة فى التعلم الآلى والتعلم العميق 


على مدى السنوات القليلة الماضية . كان البشر يحاولون RSS OV els‏ مثل 
الروبوتات التي GES‏ المنازل e‏ والسيارات ذاتية القيادة » والأنظمة التي تكتشف 
الأمراض تلقائيًا. يتطلب ely‏ مثل هذه الآلات الاصطناعية ASU‏ حل بعض أكثر 
المشكلات الحسابية تعقيدا التي واجهناها على الإطلاق ؛ المشاكل التي يمكن للدماغ 
البشري حلها في أجزاء من الثانية. لمعالجة هذه القضايا . يجب استخدام نهج مختلف 
GLS‏ لبرمجة الكمبيوتر التقليدية » تم تطويره على مدار العقد الماضي. هذا هو المجال 


التعلم العميق هو مجموعة فرعية من التعلم الآلي ويركز على دراسة وتطوير الآلات 
التي يمكنها التعلم.في تعريف أكثر دقة: التعلم العميق مع معالجة البيانات والمشابه 
للإنسان» من خلال تعلم مثال تم تعلمه مسبقًاء ومحاولة استخراج ميزات محددة Sls‏ 
من خلال عدد طبقات التسلسل» ما هو موجودفي هيكلها هو إنشاء نموذج لاتخاذ القرار 
من أجل حل مشكلة. يسمح وجود هذا العدد من الطبقات المختلفة بالتعلم العميق ليكون 
old‏ على اكتشاف ميزات محددة للمشكلةفي كل طبقة واستخدامها لاتخاذ قرارات أفضل 
في حل المشكلة. 


تاريخ التعلم العميق 


التعلم العميق له تاريخ طويل على عكس التوقعات. قد يبدو الأمر Cals‏ بعض الشيء c‏ 
لكن التعلم العميق موجود منذ الأربعينيات من القرن الماضي تحت عناوين مختلفة مثل: 
السبرانية 1 والاتصالية 2 والأكثر شهرة . الشبكات العصبية. 


تم تقديم النموذج الأول للشبكات العصبية بواسطة ماك كلاجة وبيتز“ في عام 
1943 كانت الشبكة عبارة عن مصنف GLE‏ يمكنه التمييز بين فئتين مختلفتين thy‏ على 
قيم الإدخال. كانت مشكلة هذه الشبكة هي تعديل الأوزان بواسطة عامل بشري. بعد ذلك 
في ele‏ 1957« اقترح روزنيللات؟ خوارزمية بيرسيبترون «(Perceptron)‏ والتي يمكن 
أن تتعلم الأوزان لتصنيف البيانات في هيكلها دون تدخل عامل بشري. بينما تم استخدام 


1 cybernetics 

? connectionism 
3 McCulloch 

^ Pitts 

5 Rosenblatt 
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طريقة البيرسبترون لعدة سنوات . في عام 1969 نشر مينسكي! وبوبيرت2 Vis‏ يوضح 
أن بيرسيبترون لا يمكنها إلا تصنيف المشكلات الخطية » Oly‏ المشكلات غير الخطية لا 
يمكن حلها بهذه الطريقة. ادعى مؤلفو هذه المقالة أيضًا في نفس العام أنه لا توجد موارد 
حسابية مطلوبة لبناء شبكات عصبية كبيرة وعميقة e‏ وهو ادعاء أدى إلى تدمير المقالات 
على الشبكات العصبية. لحسن الحظ wale‏ إدخال خوارزميات الانتشار الخلفي بواسطة 
فيربوس3 )1974( و روملهات“ )1986( و )550 (1998) إلى الإحياء المبكر للشبكات 
العصبية. في هذا البحث . كانوا قادرين على تدريب شبكة عصبية متعددة الطبقات. 


اليوم » تعد خوارزميات الانتشار الخلفي أساس الشبكات العصبية . والتي يمكننا من 
خلالها تدريب الشبكة . وكذلك التعلم من أخطائها. لكن في ذلك الوقت . بسبب ضعف 
أجهزة الكمبيوتر ونقص مجموعات البيانات الكبيرة . لم يتمكنوا من تدريب الشبكات 
العصبية بأكثر من طبقتين مخفيتين. ولكن اليوم » مع تزايد قوة الأجهزة وعصر البيانات 
الضخمة c‏ والتي توفر الكثير من البيانات لتدريب الشبكة » يمكن تعليم الشبكات التي 
تحتوي على أكثر من بضع طبقات مخفية. تسمى الشبكات العصبية المكونة من عدة 
طبقات الشبكات العميقة. عندما نستخدم الشبكات العميقة اليوم . فإننا نعني التعلم 
العميق. 


كيف يعمل التعلم العميق؟ 

تتعلم نماذج التعلم العميق من خلال التحليل المستمر للبيانات واكتشاف الهياكل 
المعقدة في البيانات. تتحقق عملية التعلم من خلال بناء نماذج حسابية تسمى الشبكات 
العصبية المستوحاة من بنية الدماغ. يتكون هيكل هذه الشبكة من عدة طبقات معالجة. 
يسعى التعلم العميق إلى استغلال البنية غير المعروفة في توزيع المدخلات من أجل 
اكتشاف تمثيل جيد من خلال هيكل هرمي للمفاهيم التي تشبه طبقات المعالجة. 


في هذا الهيكلء بالانتقال إلى طبقات المستوى التالي» يكون قادرًا على حل المفاهيم 
الأكثر تعقيدا للمشكلة. تقوم الطبقات الأولية بمعالجة البيانات الأولية والطبقات اللاحقة 


! Minsky 

? Papert 

3 Werbos 

^ Rumelhart 
5 Lecun 
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قادرة على استخدام المعلومات العصبية الموجودةفي الطبقات السابقة للحصول على 
معلومات أكثر ries‏ من البيانات. على سبيل المثالءفي معالجة dj pall‏ تعالج Aib‏ 
الإدخال كل بكسل من الصورة. تقوم الطبقات اللاحقة بمعالجة مجموعة من البكسلات 
واسترداد المعلومات من البيانات. قد تلاحظ الطبقات الأولية أن بعض البكسلات أغمق 
مون Lae‏ زيدما Sie WU! oli dal! D P‏ أن de pares‏ من اليكسلات تطهر بنية الع 
وطبقة عميقة جد لإدراك أن الصورة بأكملها تدور حول إنسان. 


قبل ظهور التعلم العميق لعقود من الزمنء كانت أنظمة التعلم الآلي بحاجة إلى متخصص 
في مجال الموضوع لاستخراج الميزات sao‏ اختيار السمات لمجموعة البيانات له تأثير 
كبير على نجاح نموذج التعلم iu JI‏ حين أن استخراج السمات يدويًا سيكون عملية 
معقدة وت تستغرق By‏ طويلا. 


يتيح لك التعلم العميق تحويل البيانات الأولية إلى متجهات وإدخالها إلى الشبكة 
دون الحاجة إلى استخراج الميزة يدويًا من هذه البيانات. يؤدي التعلم العميق لاستخراج 
هذه الميزة بشكل أفضل من الخبير من خلال عدد الطبقات المختلفةفي هيكلهاء من أجل 
حل المشكلة tly‏ على البيانات التعليمية المتعلقة بالمشكلة. يمكن لهذه الطبقات أن 
تتعلم بشكل مباشر ومنفردة تمثيلًا تجريديًا للبيانات الخام. يوضح الشكل 2-1 الفرق 
بين هذه الممارسةني التعلم الآلي والتعلم العميق. هناء يتم إنشاء تمثيل مجرد ومضغوط 
للبيانات الخامفي طبقات متعددةفي الشبكة. بعد ذلك يتم استخدام هذا العرض المضغوط 
لبيانات الإدخال لتوليد الإخراج. على سبيل المثال» تصنيف بيانات الإدخال إلى فتات 
مختلفة. Cal‏ أثناء عملية التدريب على الشبكةء تم تحسين هذه الخطوة بواسطة الشبكة 
العصبية للحصول على أفضل تمثيل تجريدي ممكن لبيانات الإدخال. هذا يعني أن نماذج 
التعلم العميق تتطلب القليل جد من الجهد اليدوي لأداء عملية استخراج الميزات 
وتحسينها. على سبيل المثالء إذا أردنا استخدام نموذج التعلم العميق لتحديد صورة 
السيارة. فيجب علينا Vol‏ استخراج ميزات معينة للسيارة (الشكل والحجم والعجلات) 
ونقلها إلى إدخال الخوارزمية. بهذه الطريقة» تقوم الخوارزمية بالتصنيف. بمعنى» يجب 
أن يتصرف المبرمج مباشرة لتحقيق نموذج النتيجة المرجوة. ومع ذلك.في التعلم العميقء 
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يتم تحديد استخراج الميزات داخل النموذج دون تدخل بشري لعمل التنبؤ المطلوب 
لا 3 wis‏ 


تعد خطوة استخراج الميزة جزءًا من عملية تحدث في شبكة اصطناعية عميقة. 


الميزة الثانية للتعلم العميق هي أنه يتم تزويده بكمية كبيرة من البيانات. تميل نماذج 
التعلم العميق إلى زيادة الدقة مع زيادة كمية البيانات التعليمية.في المقابلء لا تتحسن 
نماذج التعلم الآلي التقليدية بعد نقطة تشبع واحدة. 


تعلم الآلة 
fe b cir.‏ 


المخرجات المصنف استخراج الميزات المدخلات 


CL A 
مه‎ — FE = E 


المدخلات 
المخرجات المصنف + استخراج الميزات 


الشكل 2-1 الفرق بين التعلم SY‏ والتعلم العميقفي استخراج الميزات. 


سبب أهمية التعلم العميق 

نحن نعي شفي وقت غير مسبوق» حيث لعبت تقنية التعلم العميق دورًا أساسيّافي العديد 
من الاختراقات الجديدة وكان لها دور أساسيني اكتشاف الكواكب خارج المجموعة 
الشمسيةء واكتشاف العقاقير الجديدة. وتشخيص الأمراض والجسيمات دون الذرية. 
نحن نعيش ad‏ عصر نواجه فيه تحديات مستمرة. يهدد تغير المناخ إنتاج الغذاء وقد 
يؤديفي يوم من الأيام إلى نشوب حرب بسبب الموارد المحدودة. يتزايد التحدي المتمثل 
في التغيير البيئي بسبب تزايد عدد السكان. يتطلب نطاق وحجم هذه التحديات مستوى 
جديدا من الذكاء أصبح ممكنًا من خلال التعلم العميق. 
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التحديات في التعلم العميق 


التعلم العميق هو رائد الذكاء الاصطناعي وواحد من أكثر التقنيات إثارةفي العقد الماضي. 
والآن يتم استخدامها على نطاق واسعفي مجالات مختلفة مثل التعرف على الكلام 
وتشخيص السرطان والسيارات ذاتية القيادة والمجالات التي بدت مغلقةفي السابق. Gss‏ 
لبعض الخبراءء سيستمر هذا الاتجاه بوتيرة أسرع وسيحتل مناطق أخرى. 


في بعض هذه الحالات. سيكون هناك خوف من أن يهدد التعلم العميق أسس 
الاقتصاد ومجتمع الحياة البشريةء مما يؤدي إلى البطالة أو العبودية. على الرغم من أن 
التعلم العميق كان فعالًا للغايةفي العديد من الأشياء إلا أنهم لم يتمكنوا بعد من التغلب 
على جميع التقنيات. هذا بسبب القيود والتحديات التي واجهتها مقارنة بالعقل البشري. 
يمكن للمرء أن يتعلم العلاقات المجردة والواسعة بين المفاهيم المختلفة مع القليل من 
المعلومات واستخدامهاني صنع القرار. من ناحية أخرى. تتطلب خوارزميات التعلم 
العميق كميات كبيرة من البياناتفي هذه الإمكانية: 


"يفتقر التعلم العميق اليوم إلى آلية التعلم المجرد من خلال التعريف الصريح واللفظيء 
ويعمل بشكل أفضل عندما يكون هناك الآلاف أو الملايين أو حتى المليارات من الأمثلة 
التعليمية ". 


^o^ 


مشكلة أخرىفي خوارزميات التعلم العميق هي أنها جيدة جد فقطفي التخطيط بين 
المدخلات والمخرجات» لكنها ليست جيدةفي فهم سياق البيانات التي تستخدمها.في 
الواقع» تشير كلمة "عميق'في التعلم العميق إلى مرجع هندسة التكنولوجيا وعدد الطبقات 
المخفيةفي هيكلها أكثر من كونها تشير إلى فهم عميق لما يتم القيام به. 

التحدي الآخرفي التعلم العميق هو الافتقار إلى الشفافية. بينما يمكن تتبع القرارات 
التي تتخذها النماذج المستندة إلى القواعد من خلال عبارات ob « 16220 else‏ هذا لن 
يكون ممكتاني التعلم العميق. هذا النقصفي الشفافية هو ما يشار Gal]‏ التعلم العميق 
باسم "الصندوق الأسود". 

تجد خوارزميات التعلم العميق الأنماط والارتباطات من خلال البيانات التي يتم 
تغذيتها بها وأحيانًا تتخذ قرارات مربكة حتى للمهندسين الذين قاموا بإنشائها. لن تكون 
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هذه مشكلة عندما يقوم التعلم العميق بشيء ذي أهمية ثانوية. ولكن عندما يتعلق الأمر 
بتقرير مصير المتهم في المحكمة أو العلاج الطبي لمريض . فقد يكون ذلك أمرًا بالغ 
الأهمية. لأن الأخطاء يمكن أن يكون لها عواقب كثيرة. بحسب ماركوس: 
محددًا عند استخدام التعلم العميق للعمل في مجالات التشخيص الطبي والأعمال 
المالية." 

كما يقترح أنه يجب دمج التعلم العميق مع تقنيات أخرى مثل البرمجة البسيطة 
المستندة إلى القواعد وطرق أخرى للذكاء الاصطناعي مثل التعلم المعزز. يرى خبراء 
آخرون » مثل باسكال كوفمان . أن علم الأعصاب هو مفتاح الذكاء الاصطناعي الحقيقي 
الذي يمكنه حل مشاكل مثل البشر. 

ومع gles US‏ التعلم العميق ca ell OVI‏ وكفاءة لمشاكل التصنيف إذا كانت 
هناك مجموعة كافية من بيانات التدريب. 


مقارنة بين التعلم الآلي والتعلم العميق 


من أهم الاختلافات التي تقارن التعلم العميق بالتعلم الآلي هو أداء النظام ely‏ على زيادة 
عدد الأمثلة التدريبية. لن يحقق التعلم العميق نتائج جيدةني حالة عدم وجود أمثلة تدريب 
كافية.في المقابل» يمكن أن يُظهر التعلم JY‏ نتائج جيدة حتى مع وجود عدد صغير من 
الأمثلة. يتطلب استخدام التعلم العميق أيضًا أجهزة متقدمةء بينما يمكن استخدام التعلم 
JM‏ مع كل من الأجهزة وأجهزة الكمبيوتر منخفضة الطاقة. 

يتمثل الاختلاف المهم والرئيسي الذي يظهر قوة التعلم العميق مقابل التعلم BIW‏ 
الاستخراج التلقائي للميزاتني هذه الخوارزميات. باختصارء يمكن رؤية المقارنة بين 
التعلم الآلي والتعلم العميقفي الجدول 2-1. 
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الجدول 2-1 مقارنة بين التعلم الآلي وأساليب التعلم العميق 


المعايير التعلم الآلي بالكررى عمق 
تحتاج إلى فهم الميزاتؤ لا حاجة لاستخراج الميزات 
البيانات يدويًا 


أداء ممتاز على البيانات 
الاعتماد على البيانات أداء esl‏ البيانات الضخمة 


المنخفضة والمتوسطة 
الاح (ةالضعفة 
الاعتماد على الأجهزة SOM UPS‏ يحتاج الى اجهزة قوية 
أيضًا 
TRE CM‏ فى بعض الأحيان تصا ! 
وقت التنفية من بضع دقائق إلى بضع في بعض oe‏ تصل إلى 
ساعات بضعة أسابيع 


العلاقة بين الذكاء الاصطناعي والتعلم الآلي والتعلم العميق 


على الرغم من أن مصطلحات الذكاء الاصطناعي والتعلم الآلي والتعلم العميق تستخدم 
QU‏ بشكل متبادل ومتشابك. إلا أنها لا تشير جميعها إلى نفس الشيء. يوضح الشكل 
3-1 كيفية ارتباطها ببعضها البعضء وكما يمكن cu,‏ فإن التعلم العميق هو مجموعة 
فرعية من التعلم JY‏ وكذلك الذكاء الاصطناعي. 


الشكل 3-1 العلاقة بين الذكاء الاصطناعي والتعلم الآلي والتعلم العميق 


لفهم الاختلافات والفصل بين هذه المجموعات الثلاث عن بعضها البعض» يمكن 
وصفها على النحو التالي: 
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الذكاء الاصطناعي: LS‏ يوحي الاسم فإن الذكاء الاصطناعي هو مزيج من الذكاء البشري 
في الآلة. بطريقة تحاكي السلوك الشبيه بالإنسان وتحل المشكلات بشكل إبداعي. بتعبير 
أدق» يحاول الذكاء الاصطناعي إيجاد طريقة لتنفيذ نسخة من الدماغ البشريء أي كما 
يفكر الإنسان ويعمل. على سبيل JEI‏ هذه الأنظمة قادرة على تحديد واكتشاف 
الأشياء أو نقلها أو أداء مهام أخرى. حتى OM‏ لم يتم تطوير أي نظام يمكنه تحقيق 
المستوى الكامل للذكاء البشري» والسبب هو عدم وجود فهم كامل للدماغ البشري. ومع 
ذلك. فإن بناء مثل هذا النظام أصبح أقرب إلى الواقع يومًا بعد يوم. 


التعلم الآلي: التعلم الآليء وهو مجموعة فرعية من الذكاء الاصطناعي» يمكن الكمبيوتر 
ليكون قادرًا على التعلم من خلال التجربة دون تخطيط صريح. يجد هذا التعلم علاقة 
بين مدخلات ومخرجات المشكلة لاستخدامها بواسطة البيانات المعطاة لكل مشكلة 
لاستخدامهاني مواجهة مشكلة مماثلة. تعلم الآلة كيفية اتخاذ قرار بشأن مشكلة ماء وهي 
طريقة لتحقيق الذكاء الاصطناعي. 


التعلم العميق: التعلم العميق هو مجموعة فرعية من التعلم الآلي ويستخدم بنية الشبكات 
العصبية لتقليد عملية صنع القرار لحل مشكلة مشابهة للدماغ البشري» ويقوم بنفس 
الشيء مثل التعلم «UI‏ ولكن بقدرات مختلفة. بمقارنة التعلم SW‏ مع التعلم العميقء 
يمكن القول إنه بينما يستخرج التعلم العميق الميزات SUUS‏ من بنية البيانات» يجب أن 
يتم ذلك يدويًا عن طريق التعلم الآلي. وإذا قام بتنبؤات GELE‏ تقرير حل المشكلةء فإن 
الخبير أو المبرمج يجب أن يحل المشكلة بشكل صريح. لذلك يمكن اعتبار التعلم العميق 
نسخة متطورة ومتقدمة من التعلم الآلي. 


oe ol LE ار‎ fo b LS 
من تحقيق مستوى كامل من الذكاء الاصطناعيني المستقبل القريب. لذا فإن التعلم الآلي‎ 
فإن أي خوارزمية للتعلم‎ ST والتعلم العميق هما أداتان لتحقيق الذكاء الاصطناعي. بمعنى‎ 
الآلي تتضمن التعلم العميق هي ذكاء اصطناعي» ولكن ليست كل خوارزمية ذكاء اصطناعي‎ 
هي التعلم الآلي. الأنظمة الخبيرة» على سبيل المثال» هي ذكاء اصطناعي» لكنها لا تعتبر تعلم‎ 

Ji 


الفصل الاول: مقدمة فى التعلم الآلى والتعلم العميق 


تتضمن الأشياء التي تستخدم التعلم العميق اليوم مجموعة متنوعة من برامج تحليل 
البيانات الضخمة. تشمل المجالات المحددة التي تستفيد من التعلم العميق ما يلي: 


o‏ معالجة اللغة الطبيعية: يعد فهم التعقيدات المرتبطة باللغة والبنية والمعنى 
والاختلافات الدقيقة في النغمة والعبارات والتلميحات من أصعب المهام للتعلم 
البشري. يساعد التعليم المستمر منذ الولادة والتواجد في بيئات اجتماعية مختلفة 
الشخص على الحصول على الاستجابة الصحيحة وشكل التعبير الشخصي 
لسيناريوهات مختلفة. يسعى استخدام التعلم العميق في معالجة اللغة الطبيعية إلى 
تحقيق نفس المستوى البشري من خلال التعلم الآلي » مع مراعاة الاختلافات اللغوية 
والاستجابات المناسبة. تستخدم معالجة اللغة الطبيعية التعلم العميق في العديد من 
مهامها مثل: تحليل المشاعر . ونمذجة اللغة » وتصنيف النص © واسترجاع 
المعلومات . وتضمين الكلمات e‏ وفهم اللغة المنطوقة . والترجمة o ASW‏ وأنظمة 
الأسئلة والأجوبة › إلخ. 


e‏ الروبوتات: ترجع التطورات الحديثة في مجال الروبوتات إلى التطورات في الذكاء 
الاصطناعي والتعلم العميق. يمكن الذكاء الاصطناعي الروبوتات من إدراك بيئتها 
والتفاعل معها. تعني هذه التطورات أنه يمكننا توقع استخدام الروبوتات بشكل 
متزايد كمساعدين بشريين في المستقبل القريب. 


٠‏ المساعدين الافتراضيين: أحد أكثر التطبيقات استخدامًا هو التعلم العميق 
للمساعدين الافتراضيين. يوفر كل تفاعل مع هؤلاء المساعدين فرصة لهم لمعرفة 
المزيد عن صوتك ولهجتك. ونتيجة UA‏ فإنه يجلب لك تجربة تفاعلية بشرية 
ثانوية. يستخدم المساعدون الافتراضيون التعلم العميق لمعرفة المزيد حول 
مواضيعهم . من إعدادات العشاء إلى الأماكن الشعبية أو الموسيقى المفضلة. سوف 
يتعلمون فهم أوامرك من خلال تقييم لغة الإنسان الطبيعية. ميزة أخرى للمساعدين 
الافتراضيين هي ترجمة كلامك إلى نص » وكتابة ملاحظات لك وحجز مواعيدك. 
المساعدون الافتراضيين جاهزون Gla‏ لخدمتك. لأنه يمكنهم فع JS‏ شيء من الرد 
على مكالماتك المحددة إلى التنسيق بينك وبين أعضاء فريقك. 
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e‏ الأتمتة الصناعية: التعلم العميق لتعزيز سلامة العمال في بيئات مثل المصانع 
والمستودعات يوفر خدمات للكشف GUE‏ عن اقتراب العمال أو الأشياء من 
الجهاز. 


e‏ كشاورزى: التعلم العميق يمكن أن يحدث ثورةني الزراعة. يتيح التعلم العميق 
للمزارعين اليوم استخدام المعدات اللازمة للتمييز بين المحاصيل والأعشاب 
الضارة. تمنح هذه الميزة الآلات القدرة على رش مبيدات الأعشاب بشكل انتقائي 
علق الخشائش وترك GUL‏ الأشرئ adl dade‏ يمكن للآلآت الزراعية الى 
تستخدم رؤية الكمبيوتر ذات القدرة على التعلم العميق تحسين نباتات معينة عن 
طريق الرش الانتقائى لمبيدات الأعشاب والأسمدة ومبيدات الفطريات ومبيدات 
الحشرات. بالإضافة إلى الحد من استخدام مبيدات الأعشاب وتحسين الإنتاج 
الزراعي» يمكن توسيع التعلم العميق ليشمل العمليات الزراعية الأخرى مثل 
استخدام الأسمدة والري والحصاد. 


e‏ تحديد الأنواع البحرية: يعد البحث عن تحديد الأنواع البحرية جزءًا مهما من تدابير 
حماية By‏ المحيطات. مع التقدم الكبيرني التعلم العميق. ازداد الاهتمام بهذا 
الموضوع. 

e‏ البحث الطبي: بدأ باحثو السرطان في استخدام التعلم العميق لتحديد طريقة للكشف 
التلقائى عن الخلايا السرطانية. 

e‏ التصوير الطبي: في الآونة الأخيرة . تم استخدام تقنيات التعلم العميق على نطاق 
واسع لتحليل الصور الطبية وأظهر نتائج مشجعة . خاصة بالنسبة لمجموعات 
البيانات الكبيرة. 

e‏ أنظمة التوصية: يستخدم التعلم العميقفي أنظمة التوصية لاستخراج ميزات مفيدة 
للتوصيات. 

o‏ التعرف على الإيماءات والحركة: يعد اكتشاف الحركة أحد المجالات الجديدةفي 
التعلم الآلي ويرتبط بالتعرف على حركات الوجه البشرية. الإشارات المنبعثة من 
أجهزة الاستشعار قادرة على اكتشاف العواطف أو حتى الكائن وخصائصه مع الطاقة 
والتأخير الزمني وتغيير التردد. 
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ه تشخيص تأخر النمو عند الأطفال: يمكن لاضطرابات النطق والتوحد واضطرابات 
النمو أن تضعف نوعية حياة الطفل الجيدة. يمكن أن يكون للتشخيص والعلاج 
المبكر تأثير مفاجئ على صحة الطفل الجسدية والعقلية والعاطفية. UU‏ فإن أحد 
أكثر التطبيقات المحددة للتعلم العميق هو فترة الاكتشاف المبكر والتعافي من هذه 
المشاكل المتعلقة بالأطفال. 


يتمثل أحد الاختلافات الرئيسية بين التعلم JY‏ والتعلم العميقفي أن التعلم الآلي غالبًا ما يستخدم فقط 
لمهام محددة.في المقابلء يساعد التعلم العميقفي حل أخطر مشاكل الجنس البشري. 


¢ يمكن اعتبار التعلم بمثابة تحسين للأداء في مهمة معينة باستخدام الخبرة 
والممارسة. 


* أي برنامج كمبيوتر يعمل على تحسين أدائه في وظيفة معينة ذات خبرة قد تعلم. 


9 يمكن Lis‏ التعلم الآلي من خلال ثلاثة مناهج مختلفة: التعلم الخاضع للإشراف 
والتعلم غير الخاضع للإشراف والتعلم المعزز. 


e‏ يركز التعلم SY‏ على تصميم النماذج التي . في مجال معين . تحصل UE‏ على 
خوارزميات الكمبيوتر Fy‏ على بيانات التدريب المعطاة لنموذج التعلم من خلال 
التجربة وتجريب البيانات لمواجهة بيانات جديدة في نفس المجال يمكن أن 
يتصرف المجال بشكل مشابه للبشر. 


€ يمكن أن يقوم التعلم العميق باستخراج الميزات GLUE‏ بدلاً من التعلم الآلي. 
أسئلة للمراجعة G‏ 
O‏ 


1. لماذا لا يزال التعلم الآلي مستخدمًا على الرغم من التعلم العميق؟ 
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2. كيف وبأي طريقة يستخلص التعلم العميق الميزات؟ 
3. ماهو الفرق المهم بين التعلم العميق والتعلم الآلي؟ 
4. اشرح تحديات التعلم العميق؟ 


5. ما هي العلاقة بين الذكاء الاصطناعي والتعلم SY‏ والتعلم العميق؟ 


التعلم العميق الخاضع للأشراف: 


الشبكة العصبية امامية التغذيق المتكررة والالتفافية 


الأهداف: 
د عملية التعلمني الشبكات العصبية. 
ه التعرف على OI‏ امامية التغذية والمتكررة والالقافة 
د تحديات التدريبفي الشبكات العميقة. 
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المقدمة 


تستخدم العديد من خوارزميات التعلم الآلي الحالية هياكل "ضحلة". وتشمل هذه 
الشبكات العصبية مع طبقة مخفية واحدة » والانحدار الأساسي e‏ وآلات متجهات الدع 
والمزيد. تظهر النتائج النظرية أن التمثيلات التى تعلمتها هذه الأنظمة هى بالضرورة 
بسيطة وغير قادرة على استخراج مجموعة متنوعة من الهياكل المعقدة من المدخلات. 


تظهر الحجج النظرية والبيولوجية أنه من أجل بناء نظام ذكي لديه القدرة على 
استخراج تمثيلات عالية المستوى وقوية من هذه البيانات » هناك حاجة إلى نماذج 
معمارية عميقة تتضمن العديد من طبقات المعالجة غير الخطية. يمكن القول إن أفضل 
الأمثلة وأكثرها استخدامًا لهذه الشبكات هي الشبكات العصبية متعددة الطبقات Do‏ 
لتوافقها مع أنواع البيانات. 


الشبكات العصبية الاصطناعية 


الغرض من اكتشاف الإنسان للعلوم الجديدة هو زيادة القدرات البشرية. اخترعنا النار 
لطهي الطعام. لذلك  UU‏ من اعتمادنا على القدرة الأولية على معالجة الطعام في المعدة. 
أدى هذا إلى زيادة في تناول السعرات الحرارية وربما نمو الحضارة . وهو أمر لم يكن 
بمقدور أي شخص ST‏ القيام به. اخترعنا عجلات ومركبات أخرى بحيث لا تقتصر 
سرعة السفر على القدمين. 


قصة الاختراع البشري ونمو التكنولوجيا هي سرد لنوع فريد من نوعه في الطبيعة 
يتخطى باستمرار قدراته ويوسع آفاقه إلى ما لا نهاية وينتقل إلى المستقبل. ترتبط معظم 
هذه التطورات ببنية الدماغ البشري. إن الجهاز العصبي للإنسان وقدراته الشاسعة 
والمعقدة. لدى البشر جهاز عصبي معقد للغاية قادر على التفكير والاستدلال والشعور 
والخيال والفلسفة. تحدث عملية التعلم Cad‏ في الجهاز العصبي داخل دماغ الإنسان. 
إذا تمكنا من فهم LES‏ عمل LIN‏ فقد نتمكن من تنفيذ القدرة على تنفيذ نسخة منه 
في الالات. 


على الرغم من أن الدماغ هو أحد أكثر المكونات Vies‏ وقوة فى بنية الكائنات Lod!‏ 
إلا أن بُنيته الأساسية بسيطة نسبيًا ومفهومة. الشبكات العصبية الاصطناعية هي نسخ من 
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هذا الهيكل. الشبكات العصبية الاصطناعية هي نماذج حسابية تحاكي آلية التعلم Rz‏ 
الدماغ البشري مثل الشبكة العصبية الطبيعية. 


تتكون بنية الدماغ البشري . وهي الشبكة العصبية الطبيعية » من عدد كبير من 
الوحدات البسيطة تسمى الخلايا العصبية. تحتوي الخلايا العصبية على ثلاثة أنواع من 
المكونات: التشعبات » والسوما e‏ والمحاور. يمكن رؤية منظر لها في الشكل 1-2. 


تستخدم الخلايا العصبية المحاور والتشعبات للتواصل مع بعضها البعض. تسمى 
مناطق Jas JE‏ بين المحاور والتشعبات نقاط الاشتباك العصبي. OU‏ ما تتغير هذه النقاط 
استجابة للمحفزات الخارجية c‏ وهذه التغييرات هي التي تؤدي إلى التعلم في الكائنات 
الحية. يولد كل خلية عصبية إشارة داخل نفسها عن طريق إنشاء عمليات كيميائية » ويتم 
إرسال الإشارات المرسلة من كل خلية عصبية بواسطة المحور العصبي إلى التشعبات 
العصبية الأخرى. Fly‏ على هذه الإشارات c‏ يقوم الدماغ بعمل محدد. الشبكات العصبية 
الاصطناعية هي محاكاة لبنية الدماغ البشري وتستند إلى هذه الفرضيات: 


1. تتم معالجة المعلومات في هياكل بسيطة بأعداد كبيرة تسمى الخلايا العصبية. 
2. تنتقل الإشارات من خلال الاتصالات بين الخلايا العصبية في الشبكة. 
. كل اتصال له وزنه الخاص .ء والذي يتم ضرب هذه الأوزان في الشبكة العصبية 
بواسطة إشارة الإرسال. 
4. يستخدم كل خلية عصبية Ub‏ تنشيط لتطبيقها على مدخلاتها » وهي مجموع 
الاوزان لإشارات الإدخال « لتوليد إشارة الخرج. 


Q 


ZZ‏ سیناپس 
Aa‏ 


آ کسون سولهاى ديكر 23 
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وفقًا لهذه الفرضيات c‏ فإن نمط الاتصال بين الخلايا العصبية المختلفة GUS‏ الشبكة 
يسمى بُنية الشبكة وطريقة تحديد الأوزان على الاتصالات تسمى الخوارزمية التعليمية. 


تشكل الشبكة العصبية طبقة من خلال ضم عدة LOG‏ عصبية معًا. في الشبكة 
العصبية الاصطناعية » يحسب حساب الدالة عن طريق نشر القيم المحسوبة من الخلايا 
العصبية المدخلة إلى الخلايا العصبية الناتجة واستخدام الأوزان كمعاملات وسيطة. 
يحدث التعلم عن طريق تغبير الأوزان المرتبطة بالخلايا العصبية. Gb,‏ للمحفزات 
الخارجية اللازمة لتعلم بنية الدماغ . توجد بيانات تعليمية في الشبكات العصبية 
الاصطناعية لهذا المحفز الخارجي . وهي أمثلة على أزواج CVA]‏ المخرجات. 

فمثلا؛ قد تحتوي بيانات التدريب على تمثيلات بكسل للصور كأدخال للمشكلة 
والعلامات مثل الكلاب والقطط والأرانب كإخراج. يتم تغذية هذا الزوج من بيانات 
التدريب إلى بنية الشبكة العصبية باستخدام تمثيلات الإدخال fod‏ تنبؤات حول 
علامات الإخراج. توفر بيانات التدريب تغذية راجعة حول الأوزان المتاحة على الشبكة 
اعتمادًا على المخرجات المتوقعة (مثل القطة) لمدخل معين. يتم تنظيم الأوزان بين 
الخلايا العصبية استجابةً للأخطاء المتوقعة في الشبكة العصبية. الغرض من تغيير الأوزان 
هو تعديل الأداء الحسابي » بحيث تكون التنبؤات أكثر دقة في التكرارات اللاحقة. لذلك 
يتم تعديل الأوزان رياضياً والتحقق من صحتها لتقليل الخطأ الحسابي. 

من خلال ضبط الأوزان بشكل تسلسلي بين الخلايا العصبية Fly‏ على مدخلات 
ومخرجات بيانات التدريب » يتم تحسين الأداء المحسوب بواسطة الشبكات العصبية 
بمرور الوقت لعمل تنبؤات أكثر دقة. HU‏ إذا تم تدريب الشبكة العصبية بالعديد من 
الصور المختلفة » فستتمكن في النهاية من التعرف على صورة القط بشكل صحيح في 
الصورة التي لم ترها من قبل. 
يتشكل سلوك الشبكة العصبية من خلال بنية تلك الشبكة. يتم تعريف هذه LII‏ على 
أساس ما يلي: 

o‏ عدد الخلايا العصبية. 

e‏ عددالطيقات. 

e‏ كيفية الاتصال بين الطبقات. 
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يُطلق على البّنية الأكثر شهرة للشبكة العصبية اسم الشبكة العصبية متعددة 
الطبقات . والتي تسمى أيضًا بيرسيبترون متعدد الطبقات . والذي يتكون من ثلاث 
طبقات: طبقة الإدخال » والطبقة المخفية c‏ وطبقة الإخراج. تتلقى طبقة الإدخال 
المعلومات . تقوم طبقة مخفية واحدة أو أكثر بتنفيذ عملية المعالجة » وتعرض 
الطبقة الناتجة من النتائج. مع زيادة عدد الطبقات المخفية e‏ ننتقل إلى شبكة أعمق 
لديها القدرة على حل مشاكل أكثر تعقيدا من نظيراتها الضحلة. في ما يلي » سوف 
نقدم الشبكات العصبية أحادية الطبقة ومتعددة الطبقات. 


بيرسيبترون 

اخترعت بيرسيبترون بواسطة فرانك روزنبلاتفي عام 1957 مختبر كورنيل للطيران» 
بيرسبترون هو أبسط شكل للشبكة العصبية الاصطناعية وهو عبارة عن مصنف ثنائي. إن 
بنية هذه الشبكة العصبية ليست سوى طبقة إدخال واحدة بمخرج واحد فقط. ومن ثم 
يطلق عليها al‏ اسم الشبكة العصبية أحادية الطبقة. يظهر مثال على ذلكفي الشكل 2- 
2. كما يمكن رؤيته» هناك عدد كبير من المدخلاتني هذه الشبكةء والتي يتنبا مجموعهاء 
بعد الحساب» بالإخراج باستخدام دالة التنشيط. مع قائمة المدخلات = X‏ 
و ,... XQ,‏ ,£204 سيكون لکل إدخال متجه وزن .W = (Wi, W2, ..., Wr}‏ یتم حساب 
مجموع الاوزان بالمعادلة 122: 


n 
net = D wi*xi +b 1—2 doles 
i=0 
:6 على العتبة‎ tly y التنشيط على الناتج‎ lo ثم تحصل‎ 


_ _ (1,if net 2 0 
y= finet) = K > 6 
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Inputs Bias 


° Xx, 


Outputs 
y 


finet) 


Linear Activation 
Combination Function 


M * x 


الشكل 2-2 مخطط بيرسيبترون 
خوارزمية التعلم بيرسيبترون 


مع الافتراضات المناسبةء يمكن إثبات أن التعلمفي بيرسيبترون سوف يتقارب مع الأوزان 
الصحيحة من خلال تكرار الخوارزمية الخاصة به. أي أن التعلم الشبكي سيؤدي إلى تقدير 
الأوزان التي تمكن الشبكة من إنشاء القيم الصحيحةفي المخرجات Fly‏ على مدخلات 
المشكلة.في خوارزمية بيرسيبترون» لكل متجه إدخال أثناء التدريب» فإنه يولد شبكة 
الإخراج ويقارنها بالقيمة الصحيحة لتحديد ما إذاكان قد حدث Ges‏ هذه AKAI‏ إذا 
لم يحدث خطأء فلن تتغير الأوزان وسيستمر التدريب حتى تصبح الشبكة خالية من 
الأخطاء. 

لنفترض أننا قمنا بتغذية متجه إدخال إلى الشبكة وأن إحدى الخلايا العصبية تقدم 
إجابة خاطئة؛ أي أن مقدار المدخلات ليس هو نفسه الهدف. هناك وزن m‏ لهذه الشبكة 
فكل خلية عصبية متصلة بعقدة الإدخال تحدد وزناً. إذا أطلقنا على k‏ الخلية العصبية 
التي أنتجت OB CEE Gal‏ الأوزان هي Wie‏ حيث يمكنني أن يكون من 1 إلى m‏ 
cC‏ على هذا نعرف الأوزان التي تتغير. OW‏ دعونا نلقي نظرة على كيفية تغير الأوزان. 
السؤال الأول هو ما إذاكان کل وزن كبير جدا el‏ صغيرًا he‏ حساب t‏ - عن[ هو الفرق 
بين الإخراج (yy)‏ الذي تقوم به الخلية العصبية والقيمة المستهدفة (ty)‏ التي يجب أن 
تقوم بها الخلية العصبية. إذا أصبحت هذه القيمة سالبة» فإننا نجعلها أكبر» وعلى العكس» 
إذاكانت موجبة» فيمكن التحكم فيها عن طريق تقليل الخطأ. تعتمد LAS‏ تغيير الأوزان 
على المعادلة التالية: 


Awiy = —(yx — ty) X Xi 
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قبل أن ينتهي قانون التعلم » ومع ذلك » يجب أن نقرر مدى تغير الأوزان. يتم ذلك بضرب 
القيمة العالية بواسطة معامل يسمى معدل التعلم c‏ والتي يتم تمثيله عادة بالرمز ]1 تحدد 
قيمة معدل التعلم سرعة التعلم للشبكة وهي مهمة للغاية. de Eby‏ ذلك » نكتب المعادلة 
الأخيرة لتحسين الوزن على النحو التالي: 

Wij €- Wij — Cy, = ti). xi 
على ذلك » يمكن رؤية خوارزمية تعلم بيرسيبترون على النحو التالي.‎ ely 


خوارزمية التعلم بيرسيبترون 


0 تهيئة القيم الاولية 

قم بتعيين قيم صغيرة لجميع الأوزان Wig‏ 
e‏ التدريب 

لتكرار T‏ حتى 0453 جميع النواتج صحيحة: 


- حساب دالة التنشيط لكل خلية عصبية j‏ باستخدام وظيفة التنشيط و : 


m 
LIF X wiz; >0 


m 
ح رلا‎ 8 (> 2 E um 
i 0, IF X "yx > 0 
i=0 


- يتم ضبط كل من الأوزان بشكل فردي على النحو التالي: 
Wij € Wy — nCyi — ti). Xi‏ 
e‏ الاستدعاء 


- حساب دالة التنشيط لكل خلية عصبية ز: 
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z 1, اكر‎ wijx; > 0 
ay wee 
La 775] (0, Si wx; > 0 


مسئلة XOR‏ وعدم قدرة بيرسيبترون على Lala‏ 


تقوم خوارزمية التعلم بيرسيبترون بضبط الأوزان بحيث يتم تصنيف جميع عينات 
الإدخال بشكل صحيح. لن تكون خوارزمية التعلم هذه محدودة إذا لم تكن المدخلات 
قابلة للفصل خطيًا عن بعضها البعض. لن تكون هذه الشبكة العصبية أحادية الطبقة قابلة 
للاستخدامني مشاكل العالم الحقيقي OY‏ الأنماط بين الفئات ليست بالضرورة قابلة 
للفصل خطيًا. لذلك نذهب إلى مجموعة من الشبكات التي لديها قوة أكبرفي حل مشاكل 
العالم الحقيقي. 


يعد استخدام الطبقة المخفيةفي بنية الشبكات بمثابة هروب من القيود الموجودةفي 
الشبكات أحادية الطبقة. لفهم هذه المسئلة بشكل أفضل» ضع في اعتبارك الشكل (b‏ 2- 
3 حيث ]0:0[ و ]11[ تنتمي إلى الفئة A‏ و [0:1] و ]1.0[ تنتمي إلى Bal‏ من 
انهل ملظل أنه ee‏ خطرط disse‏ كما فصل الك «UJ Glas‏ فإن 
المصنف الخطي مثل بيرسيبترون لديه أداء ضعيف للغايةفي هذه الحالة. 


f(g2(x)) To 


(I)‏ مسئلة تصنيف XOR‏ (ب) مسئلة KOR‏ في تعيينها 


الشكل 3-2 مسئلة OXOR‏ الفضاء الرئيسي والمنقول. 
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ومع ذلك » ماذا يحدث إذا تم استخدام أحد البيرسيبترون بدلاً من ذلك؟ من الشكل 
I)‏ يمكن أن نفهم بسهولة أن المسافة بين 91 و ga‏ مخصصة للفئة B‏ ويجب تخصيص 
المساحة أدناه gy‏ أو أعلى 92 A BAU‏ الآن ضع في اعتبارك هذا التعيين: 


f(a.) _ (Lif net > 6 
d ko SIDE CÓ 


الآن gi(x)‏ كما هو وارد في المعادلة 1-2 يمكن رؤية نتيجة هذا التعيين في الشكل 
(ب) 3-2. كما نرى بوضوح . يمكن فصل الفئات OY‏ خطيًا في مساحة جديدة. يقدم 
الشكل 4-2 نظرة عامة على البيرسيبترون ثنائي الأبعاد. سيكون الناتج 0 أو 1 e‏ اعتمادًا 
على الفئة x‏ التي تنتمي إليها. 


لايه خروجى a‏ نگاشت ورودی 
شكل 4-2 يرسيترون دو لايه 

شبكات الت Jl Guz‏ يقت 
كما هو مذكورء كان أحد القيود الرئيسية للشبكات أحادية الطبقة أنه لا يمكن تصنيفها إلا 
بحيث يمكن فصل البيانات خطيًاء وإلا فلن يتم حل مشكلة هذه الشبكات. لحل هذا 
القيد. يمكن استخدام طبقة مخفية بين طبقات الإدخال والإخراج. ومن الأمثلة على هذه 
الشبكات, والتي تعد أيضًا أساس التعلم العميق. الشبكات العصبية بيرسيبترون متعددة 
الطبقات. والتي يشار إليها Cal‏ باسم شبكات التغذية العميقة. 

تعد هذه الشبكات واحدة من أكثر الشبكات استخدامًا في التعلم العميق نظرًا لتوافقها 
مع مجموعة متنوعة من المشكلات. لأنه لا يوجد حد لإدخاله سواء كانت البيانات صورة 
أو نص أو فيديو. سبب تسمية التغذية الامامية هو عدم وجود اتصال تغذية مرتدة » يمكن 
من JIE‏ إرجاع مخرجات النموذج إلى النموذج نفسه. تستخدم الخلايا العصبية في كل 
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طبقة دالة تنشيط مشتركة e‏ وبالنسبة لطبقة الإدخال « يكون الإدخال هو المتجه الخام 
للبيانات. 


في هذه الشبكات. بالانتقال إلى أي طبقة آخرى» يتم حساب مجموع الاوزان للخلايا 
العصبية للطبقة السابقة وبعد تطبيق lo‏ التنشيط غير الخطي» يتم نقلها إلى طبقة أخرى 
للوصول أخيرًا إلى طبقة الإخراج. يوضح الشكل 5-2 مخططًا لشبكة عصبية امامية 
التغذية عميقة متصلة بالكامل. 


WA 


طبقة المخرجات الطبقة المخفية 2 الطبقة المخفية 1 طبقة المدخلات المقادير المدخلة 
الشكل 5-2 بُنية شبكة عصبية امامية التغذية عميقة متصلة بالكامل 
Fy‏ على مفهوم الطبقة. ستكون بنية الشبكات العصبية امامية التغذية العميقة على النحو 
التالى: 
dab e‏ إدخال واحدة فقط. 
e‏ طبقة مخفية واحدة أو كش متصلة بالكامل. 
e‏ طبقة إخراج واحدة فقط. 
ننتقل الآن إلى كيفية عمل كل طبقة من هذه الطبقات وتطبيقها: 
طبقة الإدخال: هذه الطبقة هى أول طبقة مرئية وتحدد كيفية تلقى بيانات الإدخال 
(المتجهات) إلى الشبكة.في هذه الطبقة. يمثل عدد الخلايا العصبية عادةً عدد الميزات 
في الشبكة. bis‏ هذه الطبقة GLS‏ بالطبقات المخفيةفي الشبكات العصبية امامية 
التغذية.في معماريات الشبكات الأخرىء من الممكن أن يكون هذا الاتصال غير متصل 
بشكل كامل. 
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الطبقة المخفية: هناك طبقة مخفية واحدة أو أكثرفي شبكات العصبية امامية التغذية. قيم 
الأوزانفي اتصالات الطبقة البينية هي كيفية تشفير الشبكات العصبية لاستخراج 
المعلومات المستفادة من البيانات الأولية. تشير كلمة "مخفية" إلى أن هذه الطبقة غير 
مرئية للنظام الخارجي. تسمح هذه الطبقة بنمذجة الدوال غير الخطية. سيكون وجود 
طبقة مخفية IS‏ لمعظم المشكلات؛ كلما زاد عدد الطبقات» زاد الوقت الذي يستغرقه 
إنتاج هذه الشبكةء وبدلاً من ذلك يمكن أن تحل مشاكل أكثر تعقيدًا. سيعتمد العدد 
الأمثل للطبقات والخلايا العصبيةني كل طبقة إلى حد كبير على المشكلة. يعد اختيار 
العدد الصحيح من الخلايا العصبيةفي كل طبقة مخفية أمرًا بالغ الأهميةء لأنها تلعب دورًا 
oes;‏ نجاح عملية حل المشكلات. يجب تحديد هذه الأرقام بشكل تجريبي. سيؤدي 
اختيار عدد صغير من الخلايا العصبية إلى الضبط الناقص. من ناحية أخرى. سيؤدي 
العدد الكبير من الخلايا العصبية المستخدمةفي الطبقة المخفية إلى زيادة غير ضروريةفي 
وقت التدريب وإمكانية الضبط الزائد. 

طبقة الإخراج: هذه الطبقة هي آخر طبقة كانت مرئية ويمكن توقع أو حل المشكلةفي هذه 
الطبقة. يمكن أن يعتمد هذا الإخراج على التصميم الذي لدينا للمشكلة؛ يمكن أن يكون 
هذا الناتج مجموعة من الاحتمالات المتعلقة بمشكلة التصنيف. أو ناتج ale ecd‏ 
بمشكلة الانحدار. يتم تحديد هذا الإخراج بواسطة دالة التنشيط. يتناسب عدد الخلايا 
العصبيةفي هذه الطبقة مع المشكلة. على سبيل المثال؛ إذا كانت المشكلة هي التصنيف 
الثنائي» فستحتوي طبقة الإخراج على خليتين عصبيتين. 


١ T o. Jl دالة‎ 


تلعب دالة التنشيط دورًا مهما ورئيسيّاني بنية نموذج الشبكة العصبية. تستخدم هذه الدالة 
لنشر ناتج كل طبقة إلى أخرىفي نهاية العملية الحسابيةفي كل خلية عصبية. ببساطةء فإن 
دالة التنشيط هي المسؤولة عن تحديد الخلايا العصبية التي يجب تنشيطها أو التي يجب 
تعطيلها. بشكل عام يتم استخدام دوال التنشيط غير الخطية بشكل أكثر BE get‏ 
الشبكات العصبية. 


لا يمكن أن تكون دالة التنشيط المستخدمةفي شبكات التغذية» على عكس بعض 
الشبكات الأخرى» ذات أي دالة» ولكن يجب أن يكون لها خصائص معينة. يجب أن 
تكون هذه الدالة مستمرة ومشتقة وتنازلية بشكل منتظم» ويجب أن يكون المشتق الأول 
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لهذه الدالة SLU‏ للحساب بسهولة. فيما يلي» سنراجع بعض الأمثلة لدوال التنشيط 
المستخدمة على نطاق واسعنفي التعلم العميق. 

دالة سيكمويد (510/1014): تعد دالة سيكمويد. والمعروفة Cash‏ باسم الدالة المنطقية, 
واحدة من أكثر دوال التنشيط غير الخطية فائدةفي الشبكات العصبية الاصطناعية. 
تستخدم هذه الدالة لحساب احتمال مشاكل التصنيف الثنائيفي طبقة المخرجات. تولد 
هذه الدالة قيم خرج احتمالية بين صفر وواحد لكل فئة. ويمكن تحديدها بواسطة 
المعادلة 22 2: 


1 
a(x) = sigmoid(x) = umm 2—2 معادله‎ 


يوضح الشكل 6-2 (abs‏ لهذه الدالة. 


1 2 2 1 


الشكل 6-2 دالة سيكمويد 
المزايا: 
e‏ إنه غير خطى I.‏ يمكن استخدامه فى الطبقات المخفية. 
e‏ إنه قابل للاشتقاق فی كل مكان. 
e‏ نطاق الإخراج الخاص به هو صفر doles‏ لذلك يمكن استخدامه لمشاكل 
التصنيف. 


e‏ الانحدار للمدخلات البعيدة من المبدأ يقترب من الصفر . لذا فإن التعلم القائم 
على الانحدار يكون Clas‏ جد بالنسبة للخلايا العصبية المشبعة (الخلايا 
العصبية التي وصلت إلى الحد الأقصى أو الحد الأدنى لقيمتها) باستخدام 
سيكمويد. 
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e‏ عند استخدامها كدالة تنشيط الطبقة الأخيرة لمشاكل التصنيف OD e‏ مجموع 
كل الفئات ليس بالضرورة هو نفسه. 
e‏ ليست مركزية الصفر (دالة مركزية الصفر هي دالة يكون ناتجها أحيانًا أكبر من 
الصفر وأقل من الصفر). تكون قيمة هذه الدالة داتمًا بين صفر وواحد. لذلك 
لا يمكن أن يكون المتوسط صفرًا وسيظل slo‏ قيمة أكبر من الصفر. 
۰ يجب أن يتم حسابه بشكل أسي . وبالتالي ob‏ معدل التقارب بطيء. 
. هناك مشكلة مع تلاشي الانحدار. بالنسبة لقيم × الصغيرة جد أو الكبيرة جد » 
لا يوجد تغيير تقريبًا في التوقعات. 
دالة تانتش الزائدية (Tam)‏ ميزة هذه الدالة هي أنها يمكن أن تتعامل مع الأرقام السالبة 
بسهولة أكبر. ناتج هذه الدالة هو قيمة بين 1 Lag‏ ويمكن عرضهفي صورة المعادلة 2 


:3 
ex —e-* 

a(x) = tanh(x) = expe 3 — 2 المعادلة‎ 
المزايا:‎ 

.1 تسوية ناتج الخلايا العصبية إلى نطاق من 1- إلى‎ e 

e‏ على عكس سيكمويد » فهى دالة ذات محور صفري" لتسهيل تحسين دالة 

ees, 

العيوب: 

e‏ هناك مشكلة مع تلاشي الانحدار. 

o‏ يكلف الكثير من حيث الحوسبة. 

ه لديه مشكلة تشبع. 
دالة الوحدة الخطية المصححة :(ReLu2)‏ تعد دالة الوحدة الخطية المصححة. 


المستخدمةفي الطبقة المخفيةء واحدة من أكثر الدوال المستخدمة على نطاق واسعفي 
التعلم العميق اليوم. يمكن تمثيل هذه GII‏ المعادلة 2 -4: 


1 Zero-centered function 
? Rectified Linear Unit 
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ReLU(x) = max(0, x) 4-2 المعادلة‎ 


يضبط قيم الإدخال السالبة إلى الصفر لتحويل الإدخال إلى قيمة أكبر من أو تساوي 
الصفر. بمعنى xb‏ لها قيمة صفرية للمدخلات السلبية وقيمة ile‏ للمدخلات 
الإيجابية. يمكن رؤية نظرة dole‏ على هذه الدالةفي الشكل 7-2. 
المزايا: 
e‏ إنه فعال LEU‏ من الناحية الحسابية ويسمح للشبكة بالتقارب بسرعة كبيرة. ليس 
لديها حسابات أسية مقارنة بسيكمويد وتانتش. 


ReLUlo AS Aul e‏ عندما تقترب المدخلات من الصفر أو تكون صفرًا 
« يصبح الانحدار دالة للصفر. لذلك . لا يمكن استخدام خوارزمية الانتشار 
الخلفي للتعلم. مشكلة موت ReLU‏ ليست دائمة. إذا تمت إضافة بيانات 
تدريب Be‏ فقد يتم إعادة تنشيط هذه الخلايا العصبية. 

e‏ لايمنع مشكلة انفجار الانحدار. 


fo 


P d 


f 
/ 


J 


الشكل 7-2 دالة تنشيط ReLu‏ 


دالة :(Leak ReLU)‏ هذه الدالة مشابهة جد لدالة التنشيط ReLu‏ يتمثل الاختلاف 
في إدخال معامل © تسمح بتنشيط التدرجات الصغيرة إذا لم يتم تنشيطها. AUD‏ فإن 


1 Dying ReLU 
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دالة التنشيط هذه تقضى على مشكلة موت الخلايا العصبية أثناء عملية التدريب. يمكن 
تمثيل هذه GIUI‏ المعادلة 5-2: 


x X 2 اكر : صفر‎ 
LeakyReLU (x) = 5 — 2 المعادلة‎ 
GE × > اكر : صفر‎ 


يمكن رؤية نظرة dole‏ على هذه GUI‏ الشكل 8-2. 


Leaky ReLU 


122 — Activations for Leaky ReLU 


10 4 


Leaky ReLU outputs 
o 


-10 -5 0 5 10 
Linear neuron outputs 


Leaky ReLU التنشيط‎ Jl 8-2 الشكل‎ 


المزايا: 


5505 | 


e‏ إنه أسرع من الناحية الحسابية. 


da s «‏ ام سرا ف المعامل ux‏ 
دالة سوفت ماكس s(Sofhinax)‏ هذه الدالة c‏ التي يتم استخدامها في طبقة الإخراج c‏ 
هي امقداد لوظيقة سيكمويد + pai y‏ لمشاكل rial‏ هذه الدالة تجعل من الممكق 
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عمل توقع احتمالي لمشكلة تصنيف لأكثر من فئتين » ويتم تعريفها على أنها المعادلة 


SQ) = 


:2-6 
evi 


في مشاكل التصنيف متعدد العلامات» يتم استخدام دالة سيكمويدفي طبقة الإخراج. 


T‏ في مشاكل التصنيف متعدد الفئات» يتم استخدام دالة  Softmax‏ طبقة الإخراج. 


* في مشاكل التصنيف الثنائي» يتم استخدام دالة سيكمويدفي طبقة الإخراج. 


= يمكن استخدام ReLu‏ على جميع الطبقات المخفية. 


مقارنة بين دوال التنشيط 


يقارن الجدول 1-2 دوال التنشيط Fly‏ على معايير سعة الخرج» والمحور الصفري أم 


WN‏ ومشكلة qu‏ والحساب» ومشكلة تلاشى الانحدار. 


لجدول 1-2 مقارنة بين دوال التنشيط 
| 
الدالة nse‏ ا التشبع SE‏ 
الصفري l‏ 
للقيم الموجبة : 
. 5 01 کاد loe 4b i x‏ 
WLS [ ] sigmoid‏ بعلي vq‏ 
للقيم الموجبة t‏ 
los Ab 4 1‏ 
e [ ] Tanh‏ والسالبة UOS‏ 
. أفضل من 
Os‏ كاد قيم السالية 
ReLU‏ ]20+ ,0[ للقيم ' | d tanh;Sigmoid‏ 
[-cc, +e] | LeakyReLU‏ نعم پا on ad‏ 
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dia‏ الخسارة 

تحدد دالة الخسارةء والمعروفة Cal‏ باسم دالة التكلفةء مدى قرب الشبكة العصبية 
المدربة من معيارنا المثالي وهي جانب مهم من التدريب بعد بيانات التدريب الجيدة 
والهنذسنة المعمازية المناسية. ay‏ مرجودةق OI‏ العصيية. .يلعب Blo SLs!‏ 
Le‏ المناسية To‏ مكاق ASI ca US Re peo‏ 


في الخوارزميات الخاضعة للإشراف نعتزم تقليل الخطأ لكل Xue‏ تدريبية أثناء 
عملية التعلم. يتم ذلك عن طريق خوارزميات التحسين. تقيس دالة الخسارة هذا المقدار 
من خطأ النموذج لقياس قدرة النموذج. تشير هذه القيمة المقاسة إلى مدى قرب الشبكة 
العصبية من المعيار المثالي. بالنظر إلى هذه القيمةء يمكن للشبكة تقليل مقدار الخطأ 
هذا عن طريق التحديث المتكرر لأوزانها. 

بشكل عام يتمثل المفهوم الرئيسي لدالة الخسارةفي قياس مقدار الخطأ بين القيم 
المستهدفة المقدرة والقيمة الفعلية للمشكلة. بافتراض أن y‏ هي القيمة الفعلية للمشكلة 
و Y‏ هو الناتج. من أجل الحصول على أفضل نموذج. يجب تصغير ناتج دالة AISI‏ 
وهو X LOY Ey‏ اختيار Jb‏ الخسارة على نوع المشكلة وبالنسبة 
للمشكلات المختلفة» سيكون تصنيف وانحدار دالة الخسارة هذه مختلفين.في مشكلة 
التصنيف» نعتزم توقع توزيع احتمالي لمجموعة الفئات. OW‏ مشاكل الانحدار. سنجد 


Jiga‏ الخسارة المتعلقة بالتصنرة 
في هذا القسم . سوف نغطي دوال الخسارة المتعلقة بالتصنيف. 
خسارة الانتروبيا المتقاطعةا 


الانتروبيا المتقاطعة هي طريقة رياضية تستخدم في مشاكل منفصلة مثل التصنيف. 
تحسب هذه الدالة المسافة بين احتمالين ويتم تعريفها على النحو التالي: 


1 Cross-entropy Loss 


التعلم العميق: المبادئ والمفاهيم والاساليب 


n 
1 
Cross Entropy(y,9) = 9 y; log(9) 
i=1 


يتم استخدام الانتروبيا المتقاطعة في التصنيفات الثنائية » والتي يتم تعريفها على النحو 
التالي: 


n 
1 
Binary Cross Entropy(y,9) = — > 0 log(9) + (1 — yi) (1 — log($))) 
i=1 


تباعد كولباك - ليبليرا 


تشبه هذه الدالة الانتروبيا المتقاطعة المستخدمة فى مشاكل التصنيف وهى مقياس للفرق 
بين توزيع الاحتمالات وتوزيع الاحتمال الأساسي. يتم تعريف معادلتها على النحو التالي: 


n 
m Yi 
KL(y,9) = > y; log (=) 
ici 4 


دوال الخسارة المتعلقة بالانحدار 

في هذا القسم » سنغطي دوال الخسارة المتعلقة بالانحدار. 

(MSE)? Jaw gall الخطأ التربيعي‎ 

هي إحدى OV‏ الخسارة الأكثر شهرة في الانحدار » وتحسب متوسط الخطأ التربيعي 


المتوسط بين القيم الفعلية والمتوقعة بالمعادلة التالية: 


n 
1 
MSEQ, 9) ==) 0n - $0" 
i=1 


! Kullback-Leibler divergence 
? Mean squared error loss 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


(MAE)! 6lh oJ! متوسط الخطاً‎ 


تستخدم هذه الدالة لمشاكل الانحدار. تحسب هذه الدالة متوسط فرق القيمة المطلقة 
بين القيم الفعلية والمتوقعة بالمعادلة التالية: 


n 
1 
MAEQ, 9) ==) lvi - fid 
i=1 


طرق تهيئة القيم الأولية للاوزان 


تتمثل الخطوة الأولىفي ely‏ شبكة imas‏ للحصول على أفضل النتائجفي تهيئة 
المعاملات. إذا تم ذلك بشكل صحيح» فسيتم تحقيق التحسينفي أقصر وقت. Yy‏ 
فسيكون التقارب مستحيلًا باستخدام الانحدار الاشتقاقي. أحد هذه المعاملات للتهيئة 
هو إعطاء القيم الأولية للأوزان. يجب أن تحتوي الأوزان المستخدمة أثناء التدريب 
الشبكي على القيم الأولية لبدء التدريب. هذا التهيئة للأوزان لها تأثير كبير على سرعة 
التقارب Boy‏ الشبكة. تؤدي القيم العشوائية إلى التقارب أو إبطاء عملية التعلم. لذلك 
سيكون اختيار طريقة مناسبة للتدريبفي الشبكات العميقة عملية مهمة. هناك طرق 
مختلفة للقيام بذلك. والتي سوف ندرسها فيما يلي. 


تهيئة جميع الأوزان إلى الصفر 


إنها طريقة بسيطة وتعمل أولاً بإعطاء قيم صفرية لجميع الأوزان ثم تحديث الأوزان أثناء 
عملية التدريب. تبدو هذه الفكرة مفيدة» لكن هناك مشكلةفي هذه الطريقة. إذا تم ضبط 
جميع الأوزان على صفر» فسيكون مشتقها جميعًا هو نفسه بالنسبة لدالة الخسارة. لذلك 
OU‏ جميع الأوزان لها نفس القيمة بعد عمليات التكرار المتتالية. 

à ul ^ Jl ow -3 i LJ Jl 

في هذه الطريقة» يبدأ تهيئة القيم الأولية للاوزان بقيم عشوائية بحيث يكون لكل وزن 
قيمة مختلفة. سترتبط هذه الطريقة أيضًا بمشكلتين من تلاشى وانفجار الانحدار. إذا 
كانت الأوزان صغيرة» فسيصبح التدرج أصغر Rely‏ بمرور الوقت ويختفيفي النهاية. 


1 Mean absolute error loss 


التعلم العميق: المبادئ والمفاهيم والاساليب 


سيؤدي ذلك إلى التقارب desl‏ أسوأ الأحوالء إلى فقدان عملية التعلم. على عكس مشكلة 
تلاشي التدرجاتفي هذه الطريقة. سيكون من الممكن أن تنفجر التدرجات. إذاكانت قيم 
الأوزان كبيرة Me‏ سيزداد تدرجها وسيؤدي إلى تحسين كبيرفي أوزان الشبكة. 


التعلم الانتقالي 


هناك طريقة أخرى وهي استخدام كمية الأوزان المدربة من النماذج الأخرى إلى النموذج 
المستهدف.في هذه الطريقة.في بداية عملية التدريبء لا يتم التهيئة الاولية للأوزان» ولكن 
يتم تدريب أوزان النموذج الآخر. 


تهيئة القيم الأولية الموحدة كلوروتا! 


تهيئة القيم الاولية الموحدة گلوروت» والمعروفة أيضًا باسم تهيئة القيم الأولية خافيرة: 
يتم تباعد أوزان الطبقة L‏ بشكل موحد Fly‏ على التوزيع بمتوسط صفر وانحراف معياري 


محددفي الشبكة: 
6 6 
(Qua tn) Oy + 11)‏ 


في هذه المعادلة :7 و :7 هي عدد الخلايا العصبيةفي الطبقات Lg L-1‏ 
i .. JI aL oo‏ الاولية "oa‏ 
في هذه الطريقةء يتم تهيئة الأوزان من خلال النظرني حجم الخلايا العصبية للطبقة السابقة 
من أجل تحقيق المستوى الأمثل العالمي بشكل أسرع وتقليل دالة الخسارة.في هذه 
الطريقة» يتم تهيئة الأوزانني الطبقة L‏ ذات القيم العشوائية على أساس متوسط الصفر 
والانحراف ital‏ 2[ حيث ni.‏ هو عدد الخلايا العصبيةني الطبقة 1-.آ. 

: m 


1 Glorot Uniform Initialization 
? Xavier Initialization 
? He Normal Initialization 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


التحسين وتحديث الاوزان 


التحسين عبارة عن خوارزميات تحاول تقليل دالة الخسارة عن طريق تحسين الأوزان في 
الشبكة e‏ أي أن هدفنا الرئيسي هو تدريب الشبكات على المشكلة التي نحاول حلها. ضبط 
أوزان الشبكة بحيث تكون الشبكة قادرة على التعلم . يلعب اختيار خوارزمية التحسين 
الصحيحة دورًا مهما في سرعة تقارب الشبكة. هناك عدة طرق للتحسين. 


الانحدار الاشتقاقي هي واحدة من أكثر هذه الخوارزميات شيوعًا وشيوعافي الشبكات 
العصبية. مثال آخر على هذه الخوارزميات هو طريقة نيوتن. تشارك هذه الطريقة في 
تحسين التحسين باستخدام مشتق من الدرجة الثانية من خلال إيجاد جذور الدالة. تزيد 
طريقة نيوتن بشكل كبير من التعقيد الحسابي مقارنة بأساليب المشتقات من الدرجة 
الأولى. لهذا السبب . فإن استخدام أساليب التدرج الاشتقاقي أكثر شيوعًا في عملية 
تدريب الشبكة العصبية. يحسب الوضع البسيط لهذه الطريقة تدرج الخطاً لجميع عينات 
التدريب على النحو التالي: 


خوارزمية الانحدار DUI‏ ستقاقي 


افترض أن : دالةالخسارة 1)W(:‏ ,معدل التعلم t]:‏ , متجه الوزن W:‏ 
1- تهيئة القيم الاولية للاوزان. 


Gb -2‏ هذا حتى تتقارب الحلقة: 


QLW) — 4... :‏ 
احسب الانحدار الاشتقاقي س 
حدث الأوزان wew-n arw),‏ 


Ow 


3- أعد الأوزان. 


وفقًا للشكل 9-2 . يمكن اعتبار هذه الخوارزمية على أنها متسلق (عامل وزن) « ينوي 
الانتقال من الجبل (دالة التكلفة) إلى الوادي (التكلفة (Low!‏ وفي كل خطوة مع منحدر 
حاد (التدرج) من طول الخطوات (معدل التعلم) تنزل. 


EJ‏ التعلم العميق: المبادئ والمفاهيم والاساليب 


L(w) 


الانحدار 


تقليل الكلفة المحلية 


“min J 


الشكل 9-2 خوارزمية الانحدار الاشتقاقى 


تعد خوارزمية الانحدار الاشتقاقي طريقة تحسين قائمة على التكرار وتحاول تقليل 
دالة الخسارة عن طريق تغيير الأوزان الداخلية للشبكة وتحديثها تدريجيًا. يتم تحديد 
حجم الخطوة في كل تكرار للخوارزمية من خلال معدل التعلم. يتم تنفيذ عملية التكرار 
حتى لا يكون هناك تغيير في دالة الخسارة (تسمى التقارب). 


من الناحية العملية . عندما يكون عدد عينات التدريب كبيرًا » فإن استخدام خوارزمية 
التدرج الاشتقاقي سيستغرق By‏ طويلاً. OY‏ يجب أن يتم ذلك في كل تكرار للخوارزمية 
لجميع الحالات. لذلك . سيكون استخدام خوارزمية الانحدار الاشتقاقي العشوائي أكثر 
فائدة لأنه في كل تكرار للخوارزمية e‏ يقوم فقط بتحديث مجموعة من العينات. هناك 
ثلاث طرق عامة لاستخدام الانحدار الاشتقاقي: الانحدار الاشتقاقي لعينة واحدة e‏ 
الانحدار الاشتقاقي الكامل . والانحدار الاشتقاقي الصغير. في ما يلي » سوف ندرس 
El gl‏ مختلفة من خوارزميات تحسين الانحدار الاشتقاقي المستخدمة في الشبكات 
العميقة. 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


الانحدار الاشتقاقي العشواتي (SGD)‏ والصغير' 


لنفترض أن هناك ملايين الحالاتفي مجموعة بيانات التدريب.في مثل هذه الحالة. 
باستخدام طريقة الانحدار الاشتقاقي» يجب حساب الانحدار الاشتقاقي لكل هذه 
الملايين من GOVE‏ كل تكرارء والذي سيتضمن الكثير من المعالجة والحساب. يتم 
حل هذه المشكلة عن طريق خوارزمية الانحدار الاشتقاقي العشوائي. الانحدار الاشتقاقي 
العشوائي هو طريقة للتقريب العشوائي للانحدار الاشتقاقي» على عكس الانحدار 
الاشتقاقيء لا تستخدم جميع عينات التدريب لتحسين دالة الهدف» ولكن عن طريق 
إدخال كل عينة بشكل عشوائي. يتم تحديدها لتحسين الإجراءاتفي كل فترة ويتم 
الحصول على أوزان جديدة. معادلتها على النحو التالي: 


6 -ح‎ 6 1. VgJ(60, x*, y!) 


في هذه المعادلة. 6 هي معاملات النموذج» J‏ هي دالة الخسارةء x!‏ هي مدخلات 
عينة التدريب» و yl‏ هي التسمية الخاصة بها.في هذه الطريقةء نظرًا للاستجابة مع كل 
إدخال عينة. يمكن أن يؤدي إلى عدم استقرار نتائج الشبكة. هناك Caf‏ مشكلة التعثرفي 
الحد الأدنى المحلى بهذه الطريقة. 


في طريقة الانحدار الاشتقاقي الكامل » تقوم الشبكة بتحديث الأوزان عن طريق 
حساب الخطأ لجميع عينات التدريب. WA‏ ليس لديها مشكلة دنيا محلية. في 
المقابل» سوف يستغرق وقت تدريب أطول. في الفراغ بين الطريقتين › يتم استخدام 
تدرج الانحدار الاشتقاقي الصغير. في هذه الطريقة . يوجد مصطلح يسمى الدفعةة , 
والذي يشير إلى عدد العينات المستخدمة في كل فترة تكرار لحساب الانحدار الاشتقاقي. 
يقسم الانحدار الاشتقاقي الصغير مجموعة التدريب بأكملها إلى أقسام فرعية من الرقم 
sb «n‏ على هذه التقسيمات الفرعية . فإنه يحسن المعاملات. معادلتها على النحو 
التالى: 


020-— n. Vo] (6, انيز‎ yiten) 


1 Stochastic gradient descent 
? Mini batch gradient descent 
? Batch 


التعلم العميق: المبادئ والمفاهيم والاساليب 


يتراوح الحجم المعتاد للدفعات الصغيرة من 50 إلى 256 ويجب اختياره بشكل معقول: 


ه توفر أحجام الدفعات الكبيرة تدرجات أكثر دقة ولكنها تتطلب مساحة أكبر. 

ه يتطلب حجم الدفعة الصغيرة معدل تعلم صغيرًا للحفاظ على الاستقرار بسبب 
التباين الكبيرني تقدير التدرج. اختيار معدل التعلم الصغير بدوره يقلل من عملية 
التعلم. 
يعد استخدام الانحدار الاشتقاقي الصغير أكثر مقاومة للضوضاء وله تباين أقل بسبب 

استخدام مزيج من طريقتين الانحدار الاشتقاقي الكامل والانحدار الاشتقاقي العشوائي 

مما يؤدي إلى تقارب أكثر استقرارًا. HU‏ عادة ما تستخدم طريقة التحسين هذهفي 
التعلم العميق. ومع ذلك» فإن هذه الأساليب لها عيب مهم: اختيار معدل التعلم. إن 
اختيار معدل التعلم الصحيح ليس بالأمر السهل دائمًا. بصرف النظر عن dia‏ فإن اختيار 

نفس معدل التعلمفي جميع المراحل التعليمية لجميع المعاملات لن يكون هو الأمثل. 

لذلك. تم اقتراح خوارزميات مختلفة لحل هذه المشكلة من أجل تكييف معدل التعلمفي 

مراحل مختلفة من الخوارزمية لإنشاء تقارب شبكة أسرع. يعد Adam‏ مثالا Glee‏ جد 

للخوارزميات ذات معدل التعلم التكيفي. 


آداكرادا 


آداكراد هي خوارزمية التحسين القائمة على الانحدار. في طريقة الانحدار الاشتقاقي 
العشوائي » قمنا بتحسين كل معامل Wy‏ باستخدام معدل تعلم مشترك. غالبا ما يتسبب 
هذا الإجراء في حدوث مشكلات. آداكراد هي إحدى الخوارزميات التي تستخدم معدل 
التعلم التكيفي. في هذه الخوارزمية . يتم تعديل معدل التعلم لكل معامل من معاملات 
النموذج على النحو التالي عن طريق تغيير مقياسها كنسبة عكسية إلى الجذر التربيعي 
لمجموع كل قيمها التربيعية السابقة: 


als 


Vi; 
ve Li 


We+1,i = Wei — 


1 Adagrad 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


في هذه المعادلة Vei‏ من تدرج دالة AUS‏ تحتوي Gr‏ على مجموع مربعات التدرجات 
الاشتقاقية السابقة. 


أهم ميزة لاستخدام آداكراد هي أن معدل التعلم يتم ضبطه UE‏ ولا يحتاج إلى 
تعديل يدويًا. ومع ذلك » فإن مجموع القواسم المتاحة يؤدي تدريجياً إلى انهيار معدل 
التعلم. يمكن أن يؤدي معدل التعلم المتناقص هذا إلى إبطاء التعلم أو حتى إيقافه GLS‏ 
تم اقتراح الخوارزميات التالية لإزالة هذا العيب. 


!LiJalal 


آدادلتا هو امتداد لخوارزمية آداكراد التي تحل مشكلة تقليل معدل التعلم. بدلاً من مجموع 
مربعات جميع التدرجات الاشتقاقية السابقة» تحدد الخوارزمية عدد التدرجات 
الاشتقاقية السابقة إلى × ثم تخزن متوسط هذه التدرجات السابقة للإنتاجية. متوسط 
قيمة VI‏ في الوقت t‏ يعتمد فقط على المتوسطات السابقة والتدرجات الحالية. يتم 
تحسين المعامل على النحو التالي: 


7 
Wi = We = OV; 


Vos 


نظرًا oY‏ المقام هو اجذر المتوسط التربيعي للتدرج2 » فيمكن إعادة كتابته على النحو 


7] 


PLC ON 
(Vider جذر متوسط‎ 


Wt+1 = Wt 


آرآماسيروبة3 


آرآما سيروب » مثل آدادلتا . يحل مشكلة تقليل معدل التعلم عن طريق تغيير خوارزمية 
آداكراد. تستخدم هذه النسخة المعدلة من خوارزمية آداكراد وسيط اختزال أسى لحذف 


1 Adadelta 
? root mean square 
3 RMSprop 
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السجلات من الماضي البعيد. آرآماسيروب هو في الواقع نفس المتجه الأول الذي تم 
الحصول عليه لخوارزمية آدادلتا: 


(V2 ,) + 2‏ ميانكين0.9 = میانگین(۷2) 


7 
Wei = Wi = OV;‏ 
(Vo St,‏ 
قد ثبت بشكل تجريبي أن آرآماسيروب هي خوارزمية فعالة ومؤثرة في الشبكات 
العصبية العميقة. 
آدام (ADAM)‏ 


تقدير الزخم التكيفي » أو باختصار آدم » طريقة أخرى لحساب معدل التعلم التكيفي لكل 
معامل. تستفيد هذه الخوارزمية من خوارزميات آداگراد و آرآماس يروب وتخزن متوسط 
الانهيار الأسي للتدرجات السابقة في Ve‏ بالإضافة إلى ذلك » يخزن eol‏ متوسط الزخم 
الثاني للانحدار في mr. me‏ و Ve‏ هما قيم المتوسط والتباين اللامركزي » على التوالي: 
m, = fym,4 + (1 - Bi) gor‏ 
V, = 6217-1 + (1 - 2‏ 


يتحكم آدم في وسائل الحركة الأسية للتدرج الاشتقاقي والتدرج المربع من خلال 


المعادلات التالية: 
ps mr;‏ 
Me =‏ 
tepi‏ 
A Vt‏ 
—— = ,$ 
i=‏ < 


وهي معاملات فائقة بقيم ]0,1[ € 8 Dales Bo,‏ التحسين النهائية على النحو التالي: 


1 Adaptive Moment Estimation 
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7 1 
OM‏ — ربا = Wei‏ 
t Je t‏ 1+1 
تعمل خوارزمية آدم بشكل أفضل من الطرق LASS‏ الأخرى وتتقارب بسرعة كبيرة. 
كما al‏ يغلت SUK le‏ الأخرى cula (sl‏ غلا LE aee Lele‏ 
انهيار معدل التعلم c‏ والتباين العالي في التحسين والتقارب البطيء. 


خوارزمية الان ^ ار JI‏ خلفي Uu . U‏ 


كما هو مذكورفي الفصل الأولءني السنوات الأولى لظهور الشبكات العصبيةء ظل تدريب 
الشبكة متعدد الطبقات غير معروف. كان هذا بسبب إصرار مينسكي وبوبيرت على عدم 
القدرة على تدريب الشبكات متعددة الطبقات. نتيجة لذلك. انقرضت مقالات الشبكة 
العصبية بحلول الثمانينيات. لحسن الحظ. أدى النجاح الأول الذي حققه روميلهارت 
وزملاؤهفي هذا الصددني شكل خوارزمية الانتشار الخلفي إلى تجدد اهتمام الباحثين 
بالشبكات العصبية. ومع ذلك» تم العثور على العديد من التحديات الحسابيةء والتقارب» 
والضبط الزائدفي هذه الشبكات. بحيث يمكن أن يتعرض البحثفي الشبكات العصبية 
لانتكاسة. 


أدت التطورات الأخيرة إلى تنشيط الشبكات العصبية لجعلها أكثر شهرة مرة أخرى. 
لم تقتصر هذه التحسينات على الخوارزميات؛ فقد لعبت زيادة الوصول إلى البيانات وقوة 
الحوسبة للأجهزة دورًا رئيسيًا. ومع ذلك.ني استمرار هذا القسم. سنراجع خوارزمية ما 
الانتشار الخلفي مع الانحدار الاشتقاقي. 


يعتمد التعلمفي الشبكات العصبية على cle‏ تدريبية تم إدخالهافي الخوارزمية 
والتغييراتفي الأوزان. الخوارزمية المستخدمة لمعرفة الأوزان تسمى خوارزمية الانتشار 
الخلفي للخطأ. تستخدم هذه الخوارزمية قاعدة حساب التفاضل والتكامل وتحسب 
تدرج الخطأفي مسارات مختلفة من عقدة واحدة إلى المخرجات. تندرج هذه الخوارزمية 
في فئة طرق التعلم الخاضعة للإشراف وتتكون من مرحلتين رئيسيتين تسمى المرحلة 
الأمامية والمرحلة العكسية. المرحلة الأمامية مطلوبة لحساب قيم المخرجات والمشتقات 
المحليةفي العقد المختلفةء والمرحلة العكسية مطلوبة لتجميع ناتج هذه القيم المحليةفي 
جميع المسارات من العقدة إلى المخرجات. 
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المرحلة الامامية: في هذه المرحلةء يتم تغذية المدخلات إلى الشبكة العصبية كعينات 
تدريب. باستخدام مجموعة الأوزان الحالية» يمكن مقارنة المخرجات النهائية المتوقعة 
مع عينة التدريب. 


المرحلة MS‏ الشرضى quad!‏ من le pall‏ ا هي تين Lia‏ نري SY‏ ها 
الخطوة تبدأفي عقدة الإخراج. فإن هذه الخطوة تسمى الخطوة الخلفية. 


باختصارء تعمل هذه الخوارزمية بطريقة Gal‏ المرحلة الأولى» والتي تسمى المرحلة 
الأماميةء يتم تهيئة الاوزان الاولية بأرقام عشوائية صغيرة» ثم يتم تنفيذ مجموع الاوزان 
لكل طبقة بواسطة دالة التنشيط. ونقلها إلى طبقة أخرى لعمل توقع GS‏ طبقة الإخراج. 
تتم مقارنة معدل الخطأ لهذا الناتج المتوقع بالمخرجات Bagel‏ ومن المرجح أن 
يكون الخطأفي الجولة الأولى مرتفعًا. 


المرحلة الثانية » تسمى المرحلة الخلفية c‏ تعتمد على مقدار الخطأ الذي تم الحصول 
عليه من المرحلة الأمامية . ويتم تحديث الأوزان لتقليل معدل الخطأ المتوقع بالقيمة 
المستهدفة. قم بإجراء هذه العملية في عدة جولات لتقليل معدل الخطأ هذا لجميع 
عينات التدريب مع القيم المتوقعة. في ما يلي » سنصف Vol‏ قانون السلسلة ثم نستخدم 
مثالاً خطوة بخطوة لوصف هذه الخوارزمية. 
قانون السلسلة 


يمكن أن يؤدي استخدام النماذج الرسومية إلى فهم أفضل لقانون السلسلة. في الأساس. 
تستخدم النماذج الرسومية لوصف علاقات المتغيرات والدوال في النماذج الاحتمالية. 
لنفترض أن Ga‏ دالةك oly f = f(x) = f(xy)‏ علاقات الدوال كنموذج رسومي 
عي كمايلي: 


df -df de -4Y 


f = f(x) = f(zy)) dy dzdy TY 
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المتغيرات هي نوع من الدوال » لذلك عليك أن تتخيل أن كل عقدة في النماذج الرسومية 
تمثل دالة. توضح الأسهم الموجودة على يمين الصورة أعلاه كيفية نشر المعلومات في 
المشتى: 

الآن إذا كانت لدينا دالة f‏ لها تباينان × و x;‏ وكلاهما لهما تباينان هما Y1‏ و 2 
عندما Gye ee ist‏ ل f‏ من y‏ و V2‏ » تصبح المعادلة أكثر صعوبة قليلاً. لنفترض 
i 5 of E E‏ 5 » 
الان اننا ee‏ د يكم تمرير الاين 1 إلى f‏ عبر X29 Xi‏ في هذه الحالة 6 
سيكون للمشتق الجزثي تعبيرين على النحو التالي. 


f = f(zi 22) = f(zxi(i Y2), ((1:1/2لة) دنه‎ Qo کے‎ 


af _ af Om _ Of Om 
yı Ox, Oyi Oz» 9/1 


T3]‏ قمنا بتعميم قانون السلسلة على أنه النموذج الرسومي التالي » فسيتم حساب المشتق 
الجزئي f‏ فيما يتعلق ب y;‏ على النحو التالي. يساعد هذا الفهم لقانون السلسلة في فهم 
أي نوع من أنواع الانتشار الخلفي. 

f(z) = f(rilyi,---,Ym),-++,En(Y1,---,Ym)) 


e Jn. 295) 3n oes Ma «ss )J] 
f (®1(Y:), 22(yi); ٠ ++» Pn(Yi)) 


of Of Ox, , Of Ərə | — Of Om, 
Oyi i Ox, Oy; Oz» Oyi Ox, OY; 
5 pp 
j=l Ox; OY; 


الآن ‏ لنفترض أن لدينا شبكة عصبية بها 3 طبقات e‏ والتي يمكن عرضها في الشكل 2- 
10 وقيمتي الإدخال 2 و 3 وإخراجها الفعلي هو 1. 
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طبقة الاخراج الطبقة المخفية طبقة الادخال 


i2) 


الشكل 10-2 بنية الشبكة العصبية مع طبقة الإخراج 
في المرحلة الأولى » يتم تهيئة القيم الاولية بقيم عشوائية للأوزان على النحو التالي: 
Wı = 0.11 ,w, = 0.21,w3 = 0.12,w, = 0.08‏ 
ws = 0.14 ,wg = 0.15‏ 


تم تحديدها كمياً. تظهر هذه القيمة في AS‏ الشبكة في الشكل 11-2 


طبقة الاخراج الطبقة المخفية طبقة الادخال 


الشكل 11-2 تهيئة أوزان الشبكة 


بعد تهيئة وتغذية مدخلات الشبكة . يتم ضرب المدخلات بالأوزان ونقلها إلى طبقة 
أخرى. ثم يتم حساب مجموع الاوزان ويتم إنشاء قيمة متوقعة في المخرجات.يمكن رؤية 
هذه الخطوة في الشكل 12-2 وطريقة الحساب في هذه الخطوة على النحو التالي: 


0.11 0.12 


[2 3] Hen 0.08 


=[0.85 0.48]. bee = [0.191] 
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طبقة الاخراج الطبقة المخفية طبقة الادخال 


الشكل 12-2 المرحلة الامامية 


حان الوقت الآن للنظر في كيفية قيام الشبكة بحساب الفرق بين المخرجات المتوقعة 
والمخرجات الفعلية في تقييم أداء الشبكة. كما ذكر في هذه المرحلة » من المرجح أن 
تكون هذه القيمة مختلفة جدًا عن القيمة الفعلية. يمكن رؤية اختلاف الخطأ هذا في 
الشكل 13-2. تم حساب هذا الخطأ في هذه الخطوة بعد الحصول على الحساب أدناه: 


1 
(0.191 — 1)? 2 0.327 


— = خطا 
2 
الأدخال طبقة الاخراج الطبقة المخفية طبقة الادخال 


الاخراج الواقعي ٠‏ © 


الشكل 13-2 حساب الخطأ 


هدفنا الرئيسي في تدريب الشبك هو تقليل مقدار الخطأ بين قيم المخرجات الفعلية 
والمتوقعة. نظرًا OY‏ قيمة المخرجات الفعلية للمشكلة هى قيمة ثابتة » فإن تقليل الخطأ 
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هو فقط تغيير القيمة المتوقعة . لكن السؤال هو كيف يتم تغيير هذه القيمة؟ كما يتضح 
> تحدد الأوزان القيمة المتوقعة . لذلك يجب تغييرها لتقليل معدل الخطأ. يتم إجراء 
هذا المزامنة وتغيير الأوزان في المرحلة الخلفية في خوارزمية الانتشار الخلفي للخطأ 
بواسطة الانحدار الاشتقاقي. كيفية حسابه في تحسين الوزن على افتراض أن Wy‏ هو الوزن 
الجديد « و Wy‏ هو الوزن القديم و T]‏ هو معدل التعلم » يمكن حسابه على النحو التالي: 


Wy = Wy - 7 dw 
x 


على سبيل المثال » كيفية ضبط الوزن ل We‏ كما يلي: 


2 
QUaz- ET = واقعى‎ ( 1 O(iqW4 + inW2)We + (wa + i2w4)wg 


ENSE ÓWs 


Olas 1 _\9 (eee i واقعى‎ ( 
= 2 * < بيش بينى)‎ - ally) + (ws + iawa) 
خطا‎ 
rm (واقعی - بيش بينى)‎ * Cha) 
خطا‎ 
Jw, T Ale 


وفقا لذلك c‏ يتم تحديث We‏ على النحو التالي: 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


بعد التحديث لجميع الأوزان ٠‏ يتم تلخيصها على النحو التالي: 
We = We — n(A.h;)‏ 


Ws = ws — n(A.h4) 
يتلا‎ = wy — n(Aw,. iz) 
وتلا‎ = w3 — n(Awg.i4) 
Wz = w — n(Aws.i;) 
رتلا‎ = w1 — n(Aws.i) 


بعد إعادة كتابتها ووضعها في المصفوفة » يمكن رؤيتها على النحو التالي: 
-hı‏ 1 
a] od Dn‏ ده - fos]‏ = 


[o wl = ls wel ||: va 
K a | 5 ls il = low oe 
W2 Wa W2 W4 nizAws ni Awe 


OYI‏ يمكننا استخدام هذه المعادلات لتحسين الأوزان الجديدة لمثالنا » بافتراض أن قيمة 
معدل التعلم هي 0.05. يتم حساب قيم الأوزان الجديدة على النحو التالي: 
A = 0.191 — 1 = —0.809‏ 


ape 


oue] — 0.05(—0.809) p 5 pr 


0.48! 10.17 


[s Ml B pii 0.12 


w Wl 10.21 0.08 


| — 0.05(—0.809) 8 .]0.14 0.15] 


Be ا‎ 0.12 - [901 —0.012 = eee 0.13 
W2 W, 0.21 0.08 0.017 —0.018 0.23 0.10 


(OVI‏ بعد تعديل الأوزان . نكرر المرحلة الأمامية مرة أخرى » ويمكن 3955 هذه الخطوة 


1427 SS 
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كيفية حساب قيم الإخراج الجديدة على النحو التالي. 


0.12 0.13 0.17 


]2 31-1055 tp) = 1092 0.561: [17] = [0.26] 
الطبقة المخفية طبقة الادخال‎ cl dM deb 


الشكل 14-2 تكرار المرحلة الأمامية مرة أخرى 


كما يتضح . تغيرت قيمة المخرجات في التكرار الثاني للخوارزمية من 0.191 إلى 
0.26( وهو أقرب إلى الناتج الفعلي. بتكرار الخوارزمية عدة مرات » يمكن أن يكون معدل 
الخطأ قريبًا من الصفر أو مساويًا له. 


تحديات التدريب في الشبكات العميقة 


يعد التدريب فى الشبكات العميقة عملية صعبة للغاية » لذلك سيكون لها مشاكل 
وعقبات معقدة. في هذا القسم » سنتناول التحديات الرئيسية التي نواجهها في تدريب 
الشبكات العميقة. 


تلاشي وانفجار الانحدار 


تتضمن عملية التدريبفي الشبكات العميقة إيجاد مجموعة من الأوزانفي الشبكة. وهذه 
الأوزان تمثل التعلمفي الشبكة للمشكلة. 
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يعد التدريبفي الشبكات العصبية عملية متكررة» أي خطوة بخطوة مع تحديثات 
صغيرةفي الأوزانء وبتكرار هذه العملية» يتحسن أداء Ged E‏ حل المشكلات. GES‏ 
هذه العملية مشكلة تحسين» حيث تحاول الشبكة تقليل دالة الخسارة استنادًا إلى الأوزان. 
مشكلة التحسين هذه تخلق تحديات للشبكة. السؤال هوء ما الذي يمثل تحديًا بشأن 
التحسين؟ 


كما رأيناء فإن الخوارزمية الأكثر شيوعًا للتحسينفي الشبكات العميقة هي التدرج 
الاشتقاقي. يتم استخدام هذا المحسنفي خوارزمية الانتشار الخلفي لتحسين الأوزانفي 
كل تكرار لتقليل قيمة الخطأ لدالة الخسارة. يبحث المُحسّن عن الأوزانفي الوقت 
المناسب ويسعى إلى الحد الأدنى العالمي.في مشاكل التحسين البسيطة» يمكن تشبيهها 
بوعاء كبير US‏ الشكل 15-2( حيث يمكن العثور على قاع الوعاء بسهولة باستخدام 
خوارزمية العمل. تعرف هذه المشكلاتفي الرياضيات باسم التحسين المحدب. 
الحد الادنى 


/ العالمى 


9 
الشكل 15-2 التحسين المحدب 


ومع ذلك»ني أوزان الشبكة العصبيةء لن تكون المشكلة ele S‏ بل منظر JW‏ ووديان .كما 
في الشكل 16-2. تعرف هذه الأنواع من المشكلاتفي الرياضيات باسم التحسين غير 
المحدب. 
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الحد الادنى العالمى 


الحد الادنى المحلى 


الشكل 16-2 التحسين غير المحدب 


في الواقع» يمكن القول إن إيجاد مجموعة الأوزان المثلىفني الشبكات العصبية لا 
وجود لهفي زمن كثير الحدود. SN‏ هذه الأنواع من المشكلات NP-completeness‏ 
في علوم الكمبيوتر. 


ننتقل الآن إلى المشكلات التي نواجهها عند التدريبفي الشبكات العصبية العميقة 
باستخدام الانحدار الاشتقاقي وخوارزمية الانتشار الخلفي. تسمح إضافة المزيد من 
الطبقات المخفية إلى الشبكات العصبية للشبكة بمعرفة دوال أكثر تعقيداء وهذا هو الفرق 
الكبير بين الشبكات العصبية والشبكات العميقة. ولكن عند استخدام خوارزمية الانتشار 
الخلفي» يتم حساب التدرج بشكل أصغر وأصغرفي المرحلة العكسية. هذا بسبب وجود 
تدرجات متناقصةفي كل تكرار للمشتقات الجزئية بالمرور من الطبقة النهائية إلى الطبقة 
الأولية باستخدام قانون السلسلة.في شبكة بها n‏ طبقات مخفيةء يتم ضرب مشتقات هذه 
الطبقة N‏ ببعضها البعض. OW‏ إذاكانت هذه المشتقات صغيرة: فإن الانتقال إلى الطبقات 
الأولية سينخفض بشكل كبير (أوفي أسوأ الحالات ستكون صفراً وسيتوقف تعلم الشبكة) 
سيؤدي هذا إلى تلاشي الانحدار الاشتقاقي. نظرًا OY‏ هذه التدرجات الصغيرة لا يتم 
تحديثهافي خوارزمية التحديث, Oley‏ ما تكون هذه الطبقات الأولية فعالةفي التعرف على 
البيانات» فإنها تؤدي إلى دقة الشبكة غير الكافية. على العكس من ذلكء إذا كانت قيم 
المشتقات هذه كبيرة» فسوف تتدفق من خلال النمو الأسي من خلال النقل إلى «coU dall‏ 
ولن تكون الأوزان قادرة على التحسين» مما يؤدي إلى إنشاء شبكة غير مستقرة. 
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طرق لتحديد مشاكل تلاشي وانفجار الانحدار؟ 


نحن الآن نواجه مشكلة كيفية تشخيص أن شبكتنا لديها مشاكل مع تلاشي الانحدار 
وانفجار الانحدار! هناك عدة طرق لتحديد هذه المشاكل e‏ والتى لخصناها أدناه. 


e‏ نظرًا لعدم استقرار النموذج . لوحظت العديد من التغييرات في تحسين الوزن. 
الأوزان تزيد أضعافا مضاعفة أثناء التدريب. 

NaN أثناء عملية التدريب » ستحصل دالة التكلفة على مقدار‎ e 

e‏ لا يتعلم النموذج الكثير من المعلومات أثناء عملية التدريب » لذلك لديه دالة تكلفة 


اكتشاف تلاشي الانحدار 


e‏ يعد تحسين النموذج Ll‏ جدًا أثناء عملية التدريب » وقد تتوقف عملية التدريب 
e‏ تخضع الأوزان القريبة من طبقة الإخراج لتغييرات أكثر من الطبقات القريبة من طبقة 
الإدخال. 


ه أوزان النموذج تنخفض أضعافا مضاعفة. 


طرق القضاء على مشاكل تلاشي الانحدار وانفجار الانحدار 
هناك عدة طرق للتعامل مع تلاشي الانحدار وانفجار الانحدار» وبعضها مذكور أدناه. 


1. استخدام دوال التنشيط الأخرى (المعدل الخطي). 
2. اختيار طريقة تهيئة اوزان أولية أخرى. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


3. قطع التدرج1: هذه الطريقة , المناسبة لانفجار التدرج . تحد من حجم التدرج بعتبة. 
هذا يتسبب في قطع التدرجات التي لها عتبة أعلى من المعيار المحدد لتتوافق مع 
القاعدة. 


الضبط الزائد2 


الجوانب الرائعة للشبكات المتصلة بالكامل هي الحفظ. بمعنى » إذا تم منحهم الوقت 
الكافي » فسيكونون قادرين على حفظ جميع بيانات التدريب. WD‏ فإن تقارب الشبكة 
ليس معيارًا لتقييم أداء الشبكة. لأنه إذا كان هناك الكثير من التقارب » فستحتفظ الشبكة 
بجميع البيانات ولن تكون قابلة للتعميم بعد الآن. 


في الشبكات العميقة c‏ يكون الاتجاه التنازلي إلى الصفر شائعًا في دالة التكلفة . وهذا 
ليس دليلًا على القدرة على تعميم الشبكة e‏ ولا يشير إلى قوة التعلم للشبكة. هذا لأنه من 
الممكن أن تحتوي الشبكة على ميزات وحالات محفوظة لمجموعة البيانات التي يتم 
تغذيتها بها . والتي لم تعد مستخدمة في مجموعة البيانات. في مجموعة البيانات الكبيرة» 
هناك احتمالية لوجود ارتباطات غريبة يمكن للشبكات المتصلة بالكامل أن تكتشفها 
وتستخدمها . لذلك لكي تنجح الشبكة في الأداء بشكل أفضل e‏ يجب تجنب هذه 
السلوكيات. 


يتمثل التحدي الرئيسي في التعلم SY‏ في أن النموذج يجب أن يعمل بشكل جيد 
في التعامل مع البيانات الجديدة » وليس فقط البيانات التي تعلمها . بمعنى آخر . أن 
يكون Hal‏ على التعميم. من ناحية أخرى . تقوم شبكات التعلم العميق بنمذجة الدوال 
المعقدة Fly‏ على بيانات الإدخال نظرًا للعدد الكبير من معاملات التعلم » وإذا كان عدد 
هذه البيانات صغيرًا » فإن النموذج يعمل جيدا فقط على هذه البيانات ولن يكون قابلاً 
للتطوير. بعبارة cue I‏ علينا أن نكرر تدريب الشبكة العصبية لفترة كافية حتى نتمكن من 
التعيين بين المدخلات والمخرجات. لكن لا ينبغي أن يكون التدريب طويلاً بحيث 


! gradient clipping 
? Overfitting 
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الشكة. 


هناك طريقتان لحل هذه المشكلة » أولاً > جمع المزيد من البيانات وإدخالها إلى 
النموذج » بينما في معظم الحالات هذه الطريقة غير ممكنة وهذه الطريقة ai‏ عملية 
مكلفة. الطريقة الثانية » تسمى التنظيم (التنعيم)1 . هي نهج عملي لتقليل الضبط الزائد. 
يؤدي التنظيم إلى تغيير طفيف في خوارزمية التعلم » بحيث يمكن تعميم النموذج لأداء 
أفضل في مواجهة البيانات التي لم تشاهد من قبل. فيما يلي سنصف طرق التنظيم. 


التوقف المبكر ? 


يعد التوقف مبكرًا أحد أبسط الطرق وأكثرها شيوعًا للتعامل مع الضبط الزائد. يمكن 
رؤية الفكرة الرئيسية لهذه الطريقة في الشكل 17-2. باستخدام هذه الطريقة » يمكن 
تحديد العدد المناسب من التكرارات لعملية تدريب الشبكة. لاستخدام هذه الطريقة « 
تستخدم بيانات التحقق من الصحة لحساب أداء دالة الخسارة في نهاية كل تكرار » 
وتستمر عملية التكرار حتى النقطة (التكرار) حيث يتحسن أداء بيانات التحقق من 
الشبكة. 

التوقف المبكر هو طريقة تنظيم مناسبة وغير متداخلة لأنها لا تتطلب تقريبًا أي تغيير 
في عملية التدريب. هذا يعني أن استخدام هذه الطريقة لا يؤثر على ديناميكيات التعلم 
للشبكة. يمكن استخدام هذه الطريقة بمفردها أو بالاشتراك مع طرق تنظيم أخرى. 


1 Regularization 
? Early Stopping 
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الخطأ 


- 
“~~ 


البيانات التدريبية 


é "‏ 
التكرار نقطة التوقف المبكر 


الشكل 17-2 التوقف المبكر 
الحذفا Jigi‏ * 


افترض أنك تقابل الكثير من الناس كل يوم. عندما تتحدث إليهم am‏ تتذكر 
وجوههم. في بعض الأحيان عليك التواصل عبر الهاتف. لكنك هذه المرة لا تتعرف على 
نفس الأشخاص . لأنك رأيتهم فقط ولا SIS‏ سوى وجوههم. تخيل الآن أنه يمكنك 
التحدث إلى شخص عبر الهاتف فقط. في هذه الحالة » عليك أن تتعلم حفظها Fly‏ على 
صوتهم. لذلك . من خلال حذف الميزات المرئية » عليك التركيز على ميزات الصوت. 
وهذا ما يفعله الحذف العشوائي على الشبكات العصبية » إلى أن تتعلم الشبكة العصبية 
المزيد من الميزات المفيدة. 


يعد الحذف العشوائي طريقة فعالة ومنخفضة التكلفة لتنظيم الشبكات العصبية. 
الفكرة البسيطة لهذه الطريقة هي أنه خلال كل عملية Ca‏ يتم الاحتفاظ بكل خلية 
عصبية في الشبكة مع احتمال p‏ وإزالتها (غير نشطة) مع احتمال p‏ - 1. عادة ما يعتبر 


! Dropout 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


هذا الاحتمال 0.5 مع 1 = 5 لن تتم إزالة الخلايا العصبية من الشبكة. يوضح الشكل 
2-8 مخططًا لشبكة قبل وبعد الحذف العشواتى. 


ؤ 


dóoob  deosD 
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الشكل 18-2 الحذف العشوائي. الشكل الأيمن للشبكة بعد الحذف العشوائي‎ 

في الشبكات العميقة . تعتمد الخلايا العصبية الشبكية بسرعة على الخلايا العصبية 
التي تتلقى المعلومات المطبقة وتتلقى المعلومات منها. يرتبط هذا الاعتماد بخلايا 
غصبية غير مستقرة فى الشبكة » OM‏ الشبكة تعتمد على الميزات التى تتعلمها هذه الخلايا 
العصبية » في حين أن هذه الخاصية لا تمثل جميع البيانات. باستخدام طريقة الحذف 
العشوائي » لأنه سيكون من الممكن أن تكون الخلايا العصبية المحذوفة هي نفسها 
الخلايا العصبية القوية المذكورة . فإنها ستزيل هذا الاعتماد. هذا يجبر الخلايا العصبية 
على التعلم بشكل مستقل » مما يؤدي بدوره إلى أداء أفضل لتدريب الشبكة. 


التسوية بالدفعات1 


التدرج» هي مشكلة تغيير المتغيرات الداخلية للشبكة. تنشأ هذه المشكلة GY‏ المعاملات 


تتغير باستمرار أثناء عملية التدريب » والتي بدورها تغير قيم دوال التنشيط. يؤدي تغبير 


1 Batch Normalization 
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قيم الإدخال من الطبقات الأولية إلى الطبقات التالية إلى تقارب أبطأ أثناء عملية التدريب» 


لأن بيانات التدريب للطبقات اللاحقة غير مستقرة. 

بمعنى ST‏ الشبكات العميقة عبارة عن مزيج من عدة طبقات ذات دوال مختلفة › 
ولا تتعلم كل طبقة التمثيل العام من بداية التدريب فحسب » بل يتعين عليها أيضًا تغيير 
توزيعات الإدخال باستمرار ,3 للطبقات السابقة. بينما يقوم المُحسيّن بتحسين 
المعاملات على افتراض أنها لا تتغير في الطبقات الأخرى ومزامنة جميع الطبقات في 
نفس الوقت ٠‏ فإن هذه العملية ستؤدي إلى نتائج غير مرغوب فيها عند الجمع بين الدوال 
المختلفة. تم اقتراح التسوية بالدفعات للتغلب على هذه المشكلة لتقليل عدم الاستقرار 
وتحسين الشبكة. في هذه الطريقة . تقوم بتوحيد بيانات الإدخال للطبقة بحيث يكون لها 
متوسط صفر وانحراف معياري واحد. يعمل هذا على تبسيط عملية التعلم في النموذج › 
حيث ستكون المعاملات في الطبقات السابقة غير فعالة في معظم الحالات. بدون هذه 
التسوية . ستؤدي كل ترقية إلى إجراء تغيير جذري على النموذج. باختصار » يمكننا تقليل 
التغبيرات الداخلية لطبقات الشبكة عن طريق تسوية الذفعات بين الطبقات المخفية 
وإنشاء خاصية تباين مشتركة. تتلخص مزايا استخدام تسوية الدفعات في الشبكة على 
النحو التالي: 


1. تساعد على نمذجة النموذج. أظهرت التجارب أن استخدام هذه الطريقة يقلل الحاجة 
إلى طرق تنظيمية أخرى إلى حد ما » مثل الحذف التصادفي. 

2. القدرة على استخدام معدلات تعلم عالية. في الشبكات التي لا تستخدم التسوية 
بالدفعات . يتسبب معدل التعلم الكبير في تقلبات تؤدي إلى زيادة خطأ دالة الخسارة 
Na‏ من تقليلها. يعمل التشوية بالدفعات على حل هذه المشكلة إلى حد ما ء وبالتالى 
يسمح بمعدلات تعلم أكبر . وبالتالي زيادة سرعات تعلم الشبكة. i‏ 

3. باستخدام التسوية بالدفعات » يمكن الحصول على تدرج أفضل من خلال الشبكة c‏ مما 
يجعل من الممكن استخدام المزيد من الطبقات المخفية. 

4. تساعد فى تقليل الاعتماد على ie‏ المعاملات. 
m JA‏ احتمالية الضبط الزائد. لأنها أقل تأثراً بالضوضاء أثناء الاختبار (البيانات 
موحدة). 

6. يتلاشى التدرج بدرجة أقل. خاصة لدوال التنشيط ذات الفضاء المشبع (السيكمويد « 


I 
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توافر وجودة البيانات التعليمية 


تعلم خوارزميات التعلم العميق التعلم من خلال الأمثلة التعليمية التي هي بيانات المشكلة 
المعنية. من أجل ضمان أن هذه الشبكة توفر clo‏ جيدا ونتائج جيدة» من الضروري معرفة 
العديد من المعاملات. كلما زادت تعقيد الشبكةء زاد عدد المعاملات» مما يعني (pad‏ 
أقوى. يتطلب تعلم هذا العدد من المعاملات الكثير من البيانات ويعتمد نجاح الشبكة 
على كمية البيانات. على سبيل JEJE‏ يتطلب بناء نموذج للتعرف على الكلام بيانات من 
لهجات مختلفة. يتطلب بناء مثل هذا النظام حتى للغة واحدة bly‏ كبيرة جد لتغذية 
النموذج. 


ومع ذلك فإن التنظيم او التنعيم هو أحد أكثر الطرق شيوعًا لمنع الضبط الزائد. 
ولكن يمكن Cad‏ التغلب على هذه المشكلة عن طريق زيادة كمية البيانات. البيانات هي 
أهم عنصرفي أي نموذج للتعلم SY‏ باختصارء الشبكات العصبية تتعلم من التجارب 
التي تواجهها. عادة ما يكون ضبط المعاملات الفائقة أفضل خطوة لتصحيح خطأ 
التعميم. إذا كانت لا تزال هناك فجوة بين التدريب وخطأ التعميم فغالبًا ما تكون زيادة 
البيانات مفيدة. نقطة أخرى هي جودة البيانات التعليمية. لأن لديهم تأثير كبير على 
تدريب النموذج. يمكن للشبكات العصبية أن تقلل oe Bye‏ الضوضاءفي مجموعة 
البيانات أثناء عملية التدريب. ومع ذلك يمكن أن تسبب البيانات غير الصحيحة العديد 
من المشاكل.في بعض Ole‏ يرجع الأداء الضعيف للنموذجفي التطبيقات الحقيقية 
إلى تسمية غير صحيحة (بيانات ذات جودة رديئة) أو نفس كمية البيانات. في النموذج 
المدرب» إذا بدا أن هناك سلوكا HE‏ جميع مراحل التدريب» فقد يكون ذلك علامة 
على عدم تطابق البيانات. 


يستفيد التعلم العميق من مجموعات البيانات الضخمة مقارنة بخوارزميات التعلم 
الآلي الأخرى. ترتبط العديد من التحسينات النوعية للتعلم المتعمق ارتباطًا مباشرًا بزيادة 
حجم مجموعة البيانات التعليمية. يمكن أن تعمل مجموعات البيانات الضخمة كطريقة 
لوضع القواعد لمنع الضبط الزائدفي النموذج. 
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à àjLàJl تحسين المعاملات‎ 


يختلف جداً تعلم شبكة عميقة عن تعلم شبكة عميقة يمكن استخدامها. من أجل تعليم 
نموذج مناسب للتعلم العميق . يجب اجتياز العديد من الخطوات. كيفية تعيين 
المعاملات الفائقة هو واحد منهم. تسمى عملية تعيين معاملات النموذج e‏ والتي يجب 
أن يتم تحديد قيمتها قبل تعلم الشبكة . تحسين المعاملات الفائقة . وتحاول تحقيق 
أقصى استفادة من النظام. 


المعاملات مثل عدد الخلايا العصبية في كل طبقة مخفية » وعدد الطيقات المخفية. 
وحجم الدفعة ومعدل التعلم هي ES‏ فائقة. يعتبر أداء الشبكة العميق شديد 
الحساسية لهذه المعاملات. سيؤدي التعديل غير المناسب للمعاملات الفائقة إلى فشل 
عملية التعلم على الشبكة GLS‏ 


الاختلافات بين معاملات النموذج والمعاملات الفائقة في الشبكات 
العصبية؟ 


col tI Cy eaa obey ale p ia‏ العضنية diza lang‏ عن 
بعضهما البعض» وفيما «quia‏ سوف نلقي نظرة سريعة على الاختلافات بينهما. 


e‏ معاملات النموذج: هذه المعاملات هي متغيرات يتم تقديرها من مجموعة البيانات 
أثناء عملية التدريب ولا يتم تحديد قيمها يدويًا. بمعنى آخر. هذه المعاملات هي 
متغيرات داخليةفي الشبكة. يستخدم النموذج هذه المعاملات للتنبؤ. 

e‏ المعاملات الفائقة: المعاملات الفائقة هى متغيرات خارجيةفي تكوين الشبكة. بمعنى 
آخر, يتم تحديد قيمة هذه المتغيرات قبل بدء التعلم. هذه المعاملات لها تأثير كبير 
على سرعة الشبكة وأدائها. 

لفهم الفرق بين المعاملات والمعاملات BWI‏ بشكل أفضلء سيكون إعطاء مثال 

لفصلها عن بعضها أكثر وضوحًا. افترض أنك تريد تعلم القيادة. للقيام بذلك تحتاج إلى 

مدرب ليعلمكي عدة جلسات. سيواصل المدرب التدريب والتمارين بمساعدة الدروس 
والتمارين حتى تتأكد من قدرتك على القيادة بمفردك. بعد التدريب» بمجرد أن تصبح 
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Hob‏ على القيادةء لن تحتاج إلى مدرب.في هذا السيناريوء يلعب المدرب دور المعاملات 
الفائقة » وأنت تلعب دور المعاملات. 


كما لوحظ سابقاء المعاملات هي المتغيرات التي يتم تقديرها أثناء عملية التدريب» 
ويتم استخدامها للتنبؤفي نهاية التدريب.في المقابل؛ لا تعتمد المعاملات الفائقة على 
مجموعة البيانات وليست جزءًا من النموذج Shell‏ وتستخدم لتقدير معاملات 
النموذج. استخدم هذه القاعدة البسيطة عندما تواجه مشكلةفي الفصل بينهما: إذا كان 
عليك تعيين قيمة قبل التدريب» فستكون معامل BE‏ يمكن تلخيص المقارنة بين 
معاملات النموذج والمعاملات الفائقةفي الجدول 2-2. 


الجدول 2-2 مقارنة بين معاملات النموذج والمعاملات الفائقة 


المعاملات الفائقة معاملات النموذج 


يتم تعيين القيم قبل التدريب. يتم تقدير قيمهم أثناء عملية التدريب. 


هي المتغيرات الخارجية. هي جزء من النموذج. 


لا تعتمد على البيانات. تعتمد على البيانات. 


ضبط المعاملات الفائقة 
ضبط أو تحسين المعاملات الفائقة في محاولة للعثور على أفضل القيم لكل معامل فائق 
بحيث يوفر النموذج التنبؤ الأفضل والأكثر دقة. عند إعداد المعاملات الفائقة c‏ استخدم 
دائمًا معيارًا لتجربة قيم تحسين مختلفة. فيما يلي قائمة بالمعاملات الفائقة الشائعة في 
الشبكات العميقة: 

= عدد الطبقات المخفية. 

u‏ معدل التعلم. 

= دالة التنشيط. 

or‏ حجم الدفعة. 

on‏ الفترة. 

= الحذف العشوائي. 

* القيم الاولية للاوزان. 

t‏ خوارزمية التحسين. 
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كما هو مذكور في الفصل الاول c‏ يتم استخدام بيانات التحقق لتعيين المعاملات الفائقة. 
في استمرار لهذا القسم c‏ سنقدم لمحة موجزة عن الطرق المختلفة لتحسين المعاملات 
الفائقة. 


الضبط اليدوي للمعاملات الفائقة (التجربة والخطأً) 


أسهل طريقة لتعيين المعاملات الفائقة هي تعيين قيم مختلفة والتحقق من النتائج. من 
خلال الضبط اليدوي لاختيار المعامل الحالي في كل خطوة c‏ يمكن التحقق من الفرق 
بين النتيجة السابقة ومقارنتها. قد تبدو Bars‏ > لكنها ستحقق نتائج جيدة. يحتاج 
الممارس في التعلم العميق إلى اكتساب خبرة في مجال الشبكات » والتي تنقل الخبرات 
القيمة عن طريق اختبار نتائج مختلفة ويمكن أن تكون مفيدة للغاية. في هذه الطريقة › 
من الأفضل العمل بانتظام وتسجيل جميع نتائجه والتحكم في عملية التحسين والأداءء 
لتحليل أي من المعاملات لها التأثير الأكبر على أداء النموذج. 


المزايا: 


أخرى. 
Why o‏ عمل يدوي. 
o‏ تكون Ll‏ عن نفس النتيجة التي حصلت عليها دون إجراء الكثير من 


البحث الشبكي! 


يعد التجريب المتكرر والجمع بين القيم المختلفة للمعاملات الفائقة يدويًا مهمة شاقة 
وتستغرق bay‏ طويلاً وتتطلب قدرًا كبيرًا من الخبرة في فهم النموذج. يحاول البحث 


1 Grid Search 
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الشبكي ببساطة تعيين المعاملات الفائقة ضمن نطاق معين من القيم. تختبر هذه الطريقة 
تلقاتًا القيم المختلفة لكل معامل فائق GG‏ باس” ستخدام قيم متعددة للمتغيرات. 


المزايا: 


e‏ يغطي كل المجموعات الممكنة. 
العيوب: 
e‏ وقت تنفيذ جميع المعاملات الفائقة طويل . لذلك سيكون هناك حد لعدد 
المعامللات. 


البحث العشوائي! 

هناك طريقة بسيطة لاستبدال البحث الشبكي عن طريق أخذ عينات عشوائية من مساحة 
المعامل الفائق. بمعنى ST‏ بدلاً من التجارب المنتظمة على مجموعة القيم الكاملة في 
مساحة المشكلة c‏ من الأفضل تحديد واختبار القيم العشوائية من مساحة العينة بأكملها. 
من الناحية التجريبية والنظرية » في عام 2012 abl.‏ بيرجستارا وبينجيو في مقال بعنوان 
"البحث العشوائي من أجل التحسين" أن استخدام البحث العشوائي لتحسين الفائقة 
الفائقة يكون أكثر فاعلية من بحث الشبكة. 

المزايا: 


Ye‏ داعي للقلق بشأن وقت التشغيل . حيث يمكنه التحكم في عدد عمليات 
البحث عن المعاملات. 


العيوب: 
e‏ اعتمادًا على عدد عمليات البحث وحجم مساحة المعامل » قد لا يتم استكشاف 
بعض المعاملات. 


1 Random Search 
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1 jjU تحسين‎ 


الفرضية الأساسية لتحسين بايزي هي: "إذا بحثنا عشوائيًا عن بعض النقاط وعرفنا أن 
بعض هذه النقاط واعدة AST‏ من غيرها < فلماذا لا ننظر إليها؟" 


يأخذ تحسين بايزي في الاعتبار التقييمات السابقة عند اختيار مجموعة من 
المعاملات الفائقة للتقييم التالي. من خلال اختيار تكوين المعاملات الفائقة بوعي . فإنه 
ص tpi des LATUR UU quen istos dba ce cS di ul‏ تحتو علي 
أعلى درجة ممكنة. يتطلب هذا النهج عادة تكرارًا أقل في تحقيق المجموعة المرغوبة من 
قيم المعاملات الفائقة c‏ لأنه يتجاهل مناطق مساحة المعامل التي يعتقد أنها لا تفعل 


Es‏ للمساعدة. 


المزايا: 
e‏ ليس بالضرورة » ولكن من المحتمل أن يكون البحث فعالاً. 
العيوب: 
o‏ من الممكن أن نكون محاصرين في المستوى المحلي الأمثل. 
الشبكة العصبية JJAioJI‏ 6 2048 


عندما يتم ترتيب SUL‏ بحيث يكون لكل قطعة نوع من العلاقة مع القطع التي تم 
إنشاؤها قبلها وبعدهاء يشار إليها باسم التسلسلات. هناك بعض البيانات المثيرة للاهتمام 
في العالم» مثل أسعار الأسهمني الأيام القليلة الماضيةء أو إطارات لصنع فيلم أو كلمات 
من جزء من اللغة المنطوقة أو المكتوبة. من الطبيعي طرح أسئلة حول تسلسل البيانات 
هذاء مثل: هل هذه التسلسلات مثل تسلسل آخر (على سبيل المثال: هل كتب هذا 
الكتاب نفس مؤلف (TST OLS‏ كيف یمکن شرحها بمصطلحات أخرى (على سبيل 
المثال: ترجمة سلاسل الكلمات إلى لغة أخرى) أو كيف سيتصرفونفي المستقبل (على 
سبيل المثال: ماذا سيكون سعر السهم غدا؟). 


! Bayesian Optimization 
? Recurrent Neural Network 
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يمكن للشبكات العصبية المعنية الإجابة على هذه الأسئلة بشكل صحيح حتى «OI‏ 
ولكن هناك مشكلةني هذه الشبكات» وهي نقص الذاكرة. هذا النقص يضعف استخدام 
هذه الشبكات لهذا النوع من بنية البيانات. للتعويض عن هذا النقصء يمكننا تعويض 
هذا النقصفي الذاكرة عن طريق استبدال الخلايا العصبية الاصطناعية بعملية أكثر ad‏ 
تسمى الوحدة المتكررة. من خلال الجمع بين الطبقات القياسية وطبقات من الوحدات 
المتكررة» يمكننا إنشاء شبكات تعلم عميق تسمى الشبكات العصبية المتكررة» أو 
RNNs‏ للاختصار. يمكن ل RNNs‏ الإجابة على جميع الأسئلة المذكورة أعلاه 
وغيرها الكثير. يمكن استخدامهافي ترجمة اللغة إلى التسميات التوضيحية التلقائية للصور 
وحتى إنتاج نثر جديد بأسلوب المؤلفين المشهورين. 


هيكل شبكة عصبية متكررة بسيطة 


الشبكات العصبية المتكررة . أو RININS‏ . هي نوع من الشبكات العصبية التي يمكنها 
معالجة البيانات المتسلسلة ذات الطول المتغير. تتضمن أمثلة هذه البيانات الكلمات 
المكونة من جملة واحدة أو أسعار الأسهم في نقاط زمنية مختلفة. يمكن اعتبار RNN‏ 
كرسم بياني لوحدات RNN‏ حيث يؤدي كل عنصر تسلسلي نفس الإجراء. أدى نفس 
الإجراء المتكرر في التسلسل إلى تسمية الشبكة العصبية المتكررة. تعتمد الشبكات 
العصبية التقليدية على افتراض أن جميع المدخلات مستقلة عن بعضها البعض . كما 
نها تستخدم هذا الافتراض للبيانات المتسلسلة. تحتفظ وحدات RNN‏ بهذه التبعيات 
فيما رأوه حتى COMI‏ في وضع التخزين المؤقت أو الذاكرة. 


يمكن تعريف RNN‏ على أنها حلقة تغذية متكررة على النحو التالي: 
hy = f(hi Xt)‏ 

في هذا الصدد c‏ / هو مجموع القيم التي تسمى وضع الشبكة الداخلية في الوقت E‏ و 
ع هي إدخال الشبكة في الوقت LE‏ على عكس الشبكات التقليدية . حيث تعتمد الحالة 
فقط على المدخلات الحالية (وأوزان الشبكة) . تعتمد هذه الشبكات على كل من 
الإدخال الحالي والحالة السابقة. يمكن اعتبار ۸-1 بمثابة ملخص لمدخلات الشبكة 
السابقة. توضح العلاقة المتكررة كيف يتم تنفيذ الحالة التطورية خطوة بخطوة على 
التسلسل من خلال حلقة تغذية متكررة مقارنة بالحالات السابقة في الشكل 19-2. 
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الشكل 19-2 شبكة عصبية متكررة بسيطة 
لدی RNN‏ ثلاث مجموعات من المعاملات: 
(Wyn) U e‏ يحول الادخال x,‏ الى الحالة Ay‏ 
(Wan) W ©‏ يحول الحالة السابقة 4 s;‏ الى DEI‏ الحالية Ay‏ 
(Wyn) V e‏ تعيين الحالة الداخلية المحسوية [NI‏ إلى ناتج Vt‏ 
يتم إجراء التحويلات الخطية على المدخلات المعنية باستخدام U‏ و Fly Vig W‏ على 
ذلك . يمكن تحديد الحالة الداخلية ومخرجات الشبكة على النحو التالى: 
hy = f (hr * W + x, * U)‏ 
برط + Or = hi *V‏ 
y: = f (or)‏ 
فى هذه العلاقة f‏ هى دالة تنشيط غير خطية. 
كما هو مذكور في  RNN‏ تعتمد كل حالة على جميع الحسابات السابقة بواسطة 
المعادلة المتكررة. ومن النتائج المهمة لذلك إنشاء الذاكرة بمرور الوقت » OY‏ الحالات 
تستند إلى مراحل سابقة. من الناحية النظرية » يمكن لشبكات RNN‏ تخزين ن المعلومات 
لفترة طويلة » لكنها في الواقع تنظر فقط إلى بضع خطوات. 
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أنواع بنية الشبكة العصبية المتكررة 


dale‏ تشتمل RNNs‏ على بُنيات مختلفة. في هذا القسم » سوف نلقي نظرة على بعض 
RNN u$‏ الأساسية: 


٠‏ واحد لواحد: كما يتضح من الشكل 20-2 . في هذه البنية » يتم تعيين وحدة 
إدخال RNN‏ إلى وحدة مخفية ووحدة إخراج. هذه البنية هي عملية متسلسلة 
مثل الشبكات العصبية امامية التغذية والشبكات العصبية الالتفافية. مثال على 
هذه العملية هو تصنيف الصور. 


l 
1 


الشكل 20-2 ۸NN‏ واحد لواحد. 
e‏ واحد لمتعدد: كما يتضح من الشكا 21-3 » في هذه البنية » يتم تعيير وحدة 
إدخال RNN‏ إن عدة وحدات مخفية وعدة وحدات إخراج. المثال العملى 


لهذه Ll‏ هو وصف الصورة. تتلقى طبقة الإدخال صورة وتعيينها إلى عدة 
كلمات. 
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1 
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الشكل 21-2 Joly RNN‏ لمتعدد. 
e‏ متعدد لواحد: كما يتضح من الشكل 22-2 . في هذه البنية » يتم تعيين العديد 
من وحدات إدخال RNN‏ إلى عدة وحدات مخفية ووحدة إخراج واحدة. مثال 
عملى على هذه Lol‏ هو تصنيف المشاعر. تستقبل طبقة الإدخال عدة إشارات 
للكلمات في الجملة . وترسمها على أنها عاطفة إيجابية أو سلبية. 


| 


4 


الشكل 22-2 RNN‏ متعدد لواحد. 

o‏ متعدد لمتعدد: كما يتضح من الشكل 23-2 . في هذه c AIII‏ يتم تعيين العديد 
من وحدات إدخال RNN‏ إلى عدة وحدات مخفية وعدة وحدات إخراج. مثال 
عملى على LAI oda‏ هو الترجمة الآلية. تستقبل طبقة الإدخال عدة أحرف من 
كلمات اللغة المصدر c‏ وتقوم بتعيينها إلى أحرف الكلمات في اللغة الهدف. 
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الشكل 23-2 RNN‏ متعدد لمتعدد. 


تدريب الشبكة العصبية المتكررة 


OL‏ ما يتم إجراء تدريب الشبكة العصبية المتكررة باستخدام خوارزمية الانحدار 
الاشتقاقي العشوائي للدفعات الصغيرة. كما هو مذكور في القسم الخاص بخوارزميات 
التحسين > تختار هذه الخوارزميات مجموعات فرعية عشوائية من عينات التدريب 
لحساب التدرجات وتحديث الأوزان. من خلال النظر فى عينات أصغر من العينات c‏ 
يكون لها تدريب أكثر ÉL‏ واتساقًا من التدرج الذي يتم تحديثه بعينة واحدة فقط. كما 
أنه أكثر كفاءة من التحديث بجميع أمثلة التدريب. 


الانتشار الخلفي بمرور الوقت 


يتم تدريب الشبكات العصبية المتكررة بمرور الوقت بواسطة نوع خاص من خوارزمية ما 
الانتشار الخلفي تسمى الانتشار الخلفي بمرور الوقت. مثل خوارزمية الانتشار الخلفي في 
شبكة العصبية امامية التغذية » تستخدم هذه الخوارزمية قانون السلسلة لحساب الانحدار 
الاشتقاقي. يعد الانتشار الخلفي في الشبكات العصبية المتكررة أكثر صعوبة بعض الشيء 
بسبب الطبيعة المتكررة للأوزان واختفاتها بمرور الوقت. لأننا نحتاج إلى تمديد الرسم 
البياني الحسابي ل RNN‏ مرة واحدة للحصول على التبعيات بين المتغيرات ومعاملات 
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النموذج. ثم باستخدام الانتشار الخلفي وقانون السلسلة لحساب وخزن التدرجات. نظرًا 
oY‏ التسلسلات يمكن أن تكون طويلة » فقد تكون التبعيات طويلة. 

على سبيل المثال » بالنسبة لتسلسل من 1000 حرف » يمكن أن يكون للحرف الأول 
تأثير كبير على الحرف في الموقع النهائي. هذا ليس ممكتا من الناحية الحسابية Go‏ 
لأنها تستغرق Gy‏ طويلاً وتتطلب الكثير من الذاكرة. هذه العملية مليئة بالشكوك 
الحسابية والإحصائية. 


في ما يلي سوف نشرح كيف يتم حل هذه المشكلة عملياً. لكن قبل ذلك e‏ دعونا 
ننظر إلى مرحلة الانتشار الخلفي بطريقة رياضية. لفهم LAS‏ عمل هذا النهج c‏ يمكنك 
الاطلاع على نظرة عامة حول كيفية تدفق المعلومات في الشكل 24-2. 


من أجل التمكن من استخدام الانتشار الخلفي بمرور الوقت في عملية تدريب الشبكة 
العصبية المتكررة » يجب أولاً حساب دالة الخسارة: 


L($,y) = ». (eye) 


--y yrlog $t 


y,log [softmax(o,)]‏ 3 اح 
t=1‏ 
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الشكل 24-2 الانتشار الخلفى فى الشبكة العصبية المتكررة البسيطة 


نظرًا OY‏ وزن Wyn‏ مقسم في جميع المتتاليات الزمنية. ومن ثم » يمكننا اشتقاقها في أي 
مرحلة ونح تجميعها معًا: 
aL Û OL,‏ 


OWyn - OWyn 


_ GOL: 09, 0o, 
- 0$, 00; OWyn 


T 
= 2.0 - 0 69 h, 
t 


Ot 


" 5 ð 
حد و © هما ضرب خارجي لمتجهين.‎ 
: a 
iby التحيز‎ co» وبالمثل 2 يمكننا الحصول على‎ 
AL aL, 05, 0o, 


رط0 do:‏ غ09 به üb,‏ 


1 
ور - 6 )= 


بالإضافة إلى ذلك دعنا نستخدم م[ للإشارة إلى ناتج الخطوة الزمنية 1 + E‏ 


Lt+1 = —Yt+1l09ft+1 


فى هذه المعادلة hy‏ = 
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الآن c‏ سنراجع تفاصيل الانحدار الاشتقاقي Wan‏ فيما يتعلق بالوقت 1 t+‏ 


Ley = OLes1 OVt41 Ohe+1 
OWnn = Ori ONe+1 OWnn 


منذ الحالة الكامنة hegg‏ فيما يتعلق بالمعادلة المتكررة Ay‏ 

hr = tanh(wly. xr + Wil + by) 
los قيما‎ nd] adl معن العصول على‎ «E — 1 — t فى ال الرسية‎ cU 
على النحو التالي:‎ Wah ¬ 


QLt+1 = OLes1 OVt+1 0h54. 0h, 
OWnn OFt+1 Ohe+ Ohe Wnr 


لذلك . في الخطوة الزمنية 1 + اء يمكننا حساب الانحدار الاشتقاقي واستخدام + ا 
1ك من خلال إعادة الإرسال بمرور الوقت للحصول على التدرج الكلي فيما يتعلق 


‘Whh 2 


t+1 " 
QLe+1 = OLe+1 OVe+1 Ohr+ Ohy 
OWnhh ب‎ 09i Ohe+1 Ohy Wan 


لاحظ E‏ هي نفسها قانون سلسلة. فمثلا: 


dhs Oh; ðh, 
dh, ðh, dh, 


Ley‏ أيضًا أنه نظرًا WN‏ نعتبر مشتقة دالة كمتجه 6 فهى نتيجة مصفوفة (مصفوفة 
ياكوبية*) تكون Led‏ جميع العناصر مشتقات جزئية. يمكننا إعادة كتابة التدرج أعلاه: 


* بالنظر إلى دالة التعيين التالي con‏ للمتجه × إلى متجه الإخراج التالي fi RT > Rm‏ » تسمى مصفوفة جميع المشتقات 


J) الدالة بمصفوفة ياكوبية‎ sig الجزئية من الدرجة الأولى‎ 
hy ال حي‎ 
Ox, OXn 
J=|: ^ H 
ô fm ô fm 


Ox, —— 0x, 
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t 


t+1 
QLe+1 Lesi OVe+1 [1558 Oh 
OWhh = 09:44 Ohe+1 B Oh; Wnh 


t 
hjar _ hex Ola Ohe Phera 


Oh; Oh, Oh, Oh, 4, ^ Oh, 


j-k 
وأخيرًا‎ e معا في جميع خطوات الانتشار الخلفى‎ Wap تتم إضافة التدرجات المتعلقة ب‎ 
T t+1 » 
OL 5 yy OVe41 Oty. Phy 
OWhh ved OVe+1 Ohr+ Ohk OWan 
وبالمثل > ضع فى اعتبارك الخطوة الزمنية‎ Wa, الآن دعنا نستخرج التدرج بالنسبة إلى‎ 
على النحو التالي:‎ Wah واحصل على التدرج الاشتقاقي فيما يتعلق ب‎ t +1 


OLe+1 = OL; 44 OVt+1 Oht+a 
OWxnh 03,44 Oht+1 OWxn 


نظرًا لأن کل من hi‏ و Xt41‏ يساهمان في hes‏ [ فنحن بحاجة إلى hr‏ للانتشار الخلفي. 
إذا أخذنا فى الاعتبار هذه المساهمة . فستحصل عليها: 


OLe+1 = OLes1 OVt41 OMts1 | OLes1 09444. Ohe 
Wyn OVe+1 ONts1 OWyn 035,4, Oh; OWyn 


e عبر الانتشار الخلفي‎ t Jt + 1 لذلك . من خلال جمع جميع المساهمات من‎ 
t+1 » 
OLe+1 = OLe+1 0:44 Ohta Ohy 
Wyn - OVe41 Ohr+ Oh, OWxn 
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بالإضافة إلى ذلك . يمكننا اعتبار المشتق بالنسبة إلى رس فى المتتالية بأكملها: 


T t+1 7 
ðL 5 >>. OLes1 0544 ONty1 Ohy 
OWxh : £4 053 dhr+ı Oh, Wyn 


هي نفسها قانون السلسلة. 


لا تنس Cad‏ أن PN‏ 
كما ذكرنا . هناك مشاكل في تلاشي وانفجار الانحدار في الشبكة العصبية المتكررة 
العادية. بشكل عام » هناك عاملان يؤثران على مقدار التدرجات: الأوزان ودوال التنشيط 
أو بشكل أكثر دقة . المشتقات التي يمر منها الانحدار الاشتقاقي. في الشبكة العصبية 
المتكررة العادية « ينتج تلاشي الانحدار عن الاتصالات المتكررة. بشكل أوضح > هاتان 
المشكلتان ترجعان إلى المشتق المتكرر ك الذي يحدث في المعادلة Wyn‏ ويجب 
حسايه: 


t 
Ohjj; Oh, Oh; Oh Oh 


Oh; — Oh, ðh, Oh,., Oh, 


j-k 
ويمثل ضرب المصفوفة على المتتالية.‎ 


نظرًا oY‏ الشبكة العصبية المتكررة العادية تحتاج إلى الحصول على الانحدار 
الاشتقاقي للانتشار الخلفي بتسلسل طويل (بقيم صغيرة مضروبة في المصفوفة) OL e‏ 
مقدار التدرج ينخفض طبقة تلو الأخرى ويختفي في النهاية بعد بضع خطوات. AWD‏ 
لن تساعد الحالات البعيدة عن المرحلة الزمنية الحالية في حساب معاملات التدرج « 
وهي نفس معاملات التعلم في الشبكة العصبية المتكررة. 


لا يقتصر تلاشي الانحدار على الشبكة العصبية المتكررة العادية. كما هو مذكور في 
الفصل 2 . تحدث Cal‏ في الشبكات العصبية امامية التغذية. النقطة المهمة هي أن 
الشبكة العصبية المتكررة أكثر شيوعًا بسبب عمقها. تظهر هاتان المشكلتان فى النهاية أنه 
إذا اختفى الانحدار الاشتقاقي . فهذا يعني أن الحالات المخفية السابقة id‏ لها تأثير 
حقيقي على الحالات المخفية التالية. بمعنى CURT‏ لا يتم تعلم التبعية طويلة المدى. 
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لحسن الحظ » هناك عدة طرق لإصلاح مشكلة تلاشي الانحدار. يمكن أن يؤدي التهيئة 
المناسبة لمصفوفات الوزن إلى تقليل تأثير تلاشي الانحدار. يمكن أن يساعد التنظيم 
أيضًا. هناك حل آخر مفضل أكثر من الحلين السابقين وهو استخدام دالة التنشيط 
ReLU‏ بدلا من وظائف Tanh‏ أو .Sigmoid‏ مشتق ReLU‏ هو ثابت من 0 أو 1 . 
لذلك على الأرجح لا يحتوي على مشكلة تلاشي الانحدار. الحل الأكثر os‏ الأكثر 
استخدامًا اليوم هو استخدام شبكات الذاكرة قصيرة المدى تدوم لفترة أطول (LSTM)‏ 
أو وحدات إرجاع (GRUs) 41 JI‏ 


شبكات الذاكرة قصيرة المدى تدوم لفترة أطول !(LSTM)‏ 


شبكات الذاكرة تدوم لفترة أطول . والمختصرة ب LSTMs‏ « هي نوع خاص من ال 
RNN‏ تم تصميم هذه الأنواع من الشبكات العصبية لتعلم التبعيات طويلة المدى 
بواسطة هوجريتر2 و شميتبرة في عام 1997. يمكن أن تحل LSTMs‏ مشكلة التبعيات 
طويلة المدى لأنها تحتوي على خلية ذاكرة محددة. الفكرة الأساسية ل LSTM‏ هي 
منطق البوابة » والذي يتيح بنية قائمة على الذاكرة. لمزيد من وصف هذا المفهوم « ننتقل 
إلى بنية ذاكرة s LSTM‏ أي نظام قائم على الذاكرة » تحتوي خلية LSTM‏ النموذجية 
على ثلاث ميزات رئيسية: 

1. الكتابة فى الذاكرة. 

E‏ القراءة من الذاكرة. 

3. إعادة ضبط الذاكرة. 


يوضح الشكل 25-2 هذه الفكرة. يتم تمرير قيمة خلية LSTM‏ السابقة أولاً من 
خلال بوابة إعادة الضبط » والتى تعمل على قياس قيمة الحالة السابقة فى النطاق من 0 
إل 21 إذا كافك c‏ م1 + لمر od] ados ded‏ النايقة و Sid‏ 
السابقة). إذاكانت هذه القيمة قريبة من الصفر c‏ فسيتم حظر حالة الخلية السابقة (نسيان 


1 Long short term memory 
? Hochreiter 
3 Schmidhuber 
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الحالة السابقة). في الخطوة التالية » تقوم بوابة LES‏ ببساطة بإعادة LES‏ الإخراج 
المعدل لبوابة إعادة التعيين. أخيرًا ء تقرأ بوابة القراءة إخراج بوابة الكتابة. 


الكتابة اعادة الضبط 


St St 
القراءة‎ 


الشكل 25-2 الفكرة الرئيسية ل LSTM‏ 
كما ذكرناء يتيح LSTM‏ القدرة على حذف أو إضافة معلومات إلى خلية الحالة بواسطة 
بنية البوابة. هناك ثلاثة أنواع من البوابات في هيكل LSTM‏ « والتي يمكنك رؤيتها في 
الشكل 26-2: 

e‏ بوابة النسيان: في هذه البوابة » يتم تطبيق دالة سيكمويد على قيم الإدخال من 
خلية الحالة السابقة. نظرًا OY‏ دالة سيكمويد تأخذ أي قيمة بين 0 و 1 » فإن 
هذه البوابة تعنى نسيان مقدار قيمة الخلية للحالة السابقة الممكنة. بمعنى آخرء 
تساعد هذه البوابة على نسيان محتوى الماضى. 

e‏ بوابة الدخول: بوابة الدخول مسؤولة عن الحماية من المداخل غير المرتبطة. 

aly e‏ الإخراج: تولد هذه البوابة ESL‏ في الوقت t‏ عند hy‏ باستخدام دالة 
سيكمويد. بمعنى آخر 0 تشارك بوابة الإخراج في إظهار أو عدم عرض 
المحتويات داخل الخلية. 
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بوابة الادخال بوابة النسيان 


1 
I 
1 
I 
1 
1 
I 
1 
I 
1 


الشكل 26-2 بنية LSTM‏ 
سننظر الآن في كيفية عمل LSTM‏ خطوة بخطوة: 


تتمثل الخطوة الأولى في LSTM‏ في تحديد المعلومات التي يجب نقلها ca‏ عن خلية 
الحالة. يتم اتخاذ هذا القرار من خلال طبقة سيكمويد تسمى طبقة بوابة النسيان e‏ والتي 
يمكن رؤيتها في الشكل 27-2. 


fı =o (Wy: |[he-1, m] + by) 


الشكل 27.2 طبقة بوابة النسيان 
تقوم المدخلات Nyy‏ و xp‏ بتنفيذ عملية حذف المعلومات أو تركها من خلية الحالة. 
إذا كانت القيمة التي تم الحصول عليها هي 1 . فسيتم نقل خلية الحالة cui,‏ بالكامل 


إلى ceed‏ وتعني القيمة 0 أنه لن يتم نقل أي شيء من Cir‏ على سبيل المثال » في 
نمذجة لغة تحاول التنبؤ بالكلمة التالية Fly‏ على جميع الكلمات التي تسبقها . إذا كانت 
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خلية الحالة تحتوي على جنس الموضوع الحالي . فيجب أن تتخذ قرارًا باختيار الضمير 
ely‏ عليها. SU‏ إذا ظهر موضوع جديد c‏ فمن الضروري إزالة جنس الموضوع السابق. 
الخطوة التالية في تحديد المعلومات الجديدة التي سيتم تخزينها في خلية الحالة. يمكن 
رؤية هذه الخطوة في الشكل 28-2 وتتكون من جزأين. 

e تحدد طبقة سيكمويد التي تسمى طبقة بوابة الإدخال القيم المراد تحديثها‎ (NI 


ثم تنشى طبقة تانتش متجها لقيم :© المرشحة الجديدة. أخيرًا » يتم دمج الاثنين لتشكيل 
خلية حالة. 


7 =O (W;-[ht-1, 24] + bi) 
C, = tanh(Wo-[hi_-1, xi] + bc) 


الشكل 28-2 طبقة بوابة الادخال 
في المثال السابق » جرت محاولة لاستبدال جنس الموضوع الجديد بخلية حالة بجنس 
الموضوع السابق. للقيام بذلك » يتم تحديث خلية الحالة القديمة 6-1 ب «Ct‏ وضرب 
قيمة خلية الحالة السابقة ب fe‏ » ثم أضف ip C,‏ إليها . كما هو موضح في الشكل 2- 


9. هذه الخطوة « على سبيل المثال » هي المكان الذي يتم فيه تجاهل معلومات النوع 
النشط السابقة c‏ ويتم إضافة معلومات جديدة إلى خلية الحالة. 


Oca Ce 


1 E C; = fi * Ce-1 Td * ب‎ 


الشكل 29-2 تحديث المعلومات 
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أخيرًا » يجب تحديد ما هو موجود في الإخراج. يعتمد هذا الإخراج على خلية الحالة 
بإصدار تمت فلترته. أولاً c‏ يتم تطبيق طبقة سيكمويد لتحديد أجزاء خلية الحالة المراد 
إرسالها إلى المخرجات . ثم نقوم بتمرير قيمة خلية الحالة إلى طبقة تانتش لمضاعفة 
قيمتها أخيرًا بإخراج طبقة سيكمويد السابقة حتى تتم مشاركة الأجزاء المطلوبة في 
الإخراج. يوضح الشكل 30-2 كيفية القيام بذلك. 


Or =O (Wo [4 31, xi] T bo) 
ht = Of * tanh (C+) 


الشكل 30-2 بوابة الاخراج 


GRU) CELT PES امسا‎ 


في محاولة لتبسيط LSTM‏ . سنة 2014 تم تقديم Gateway Return Unit‏ 
(GRU)‏ لحل مشكلة تلاشي الانحدار في RNN‏ القياسي مقارنة ب LSTM‏ » الذي 
يحتوي على ثلاث بوابات » تستخدم GRU‏ بوابتين تسمى: بوابات تحديث وإعادة 
التعيين. تحدد هاتان البوابتان المعلومات التي يجب عرضها في الإخراج. 


على عكس LSTM‏ التي تستخدم بوابة النسيان والاخراج مباشرة للتحكم في مقدار 
تغير المعلومات في الحالة المخفية . تقوم وحدة GRU‏ بنفس الغرض فقط من خلال 
بوابة إعادة التعيين. على الرغم من أن GRU‏ مشابه جد ل LSTM‏ . لا ينبغي اعتباره 
حالة خاصة ل Gal .LSTM‏ وجود عدد (Bl‏ من المعاملات لكل GRU‏ إلى تعقيد 
حسابي أقل c‏ وقد ثبت أن GRU‏ يمكن أن تؤدي بشكل أفضل أو مشابه ل LSTM‏ في 
Ayal cis‏ بالطبع » يبدو أن الأداء النسبي يعتمد على العمل المنجز. تعد GRU‏ أكثر 
فائدة عندما تتوفر بيانات تدريب أقل بسبب قلة المعاملات. ومع ذلك c‏ مع زيادة عدد 
بيانات التدريب » يفضل .LSTM‏ يمكن رؤية مخطط خلية GRU‏ في الشكل 31-2. 


1 Gated recurrent unit 
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الشكل 31-2 بوابة الاخراج 


في ما يلي » نشرح الرياضيات وراء عملية وحدة GRU‏ خطوة بخطوة: 


1. بوابة التحديث: أولاً . يتم حساب بوابة التحديث Ze‏ في الوقت ع باستخدام المعادلة 
التالية: 
Zt = 0 (wzx, + Uzhe-1)‏ 
تحدد بوابة التحديث المعلومات الى يجب تجاهلها والمعلومات الجديدة التى 
بجت تخزينها Fly.‏ على الإدخال x,‏ والحالة الكامتة السابقة Late Ap‏ تكون 
X,‏ متصلة بالشبكة $ يتم ضربها بوزنها -Wz‏ يتم ry Uz 55» ha — Cai‏ 
إضافة الاثنين Us‏ ثم تنتج دالة سيكمويد نتيجة بين 0 و 1. تساعد بوابة التحديث 
النموذج في تحديد مقدار المعلومات التي يجب نقلها في المستقبل. هذا سيمنع 
التدرج من التلاشي. OY‏ النموذج يمكن أن يقرر الحصول على نسخة من جميع 
المعلومات السابقة. 
2. بوابة Bole]‏ التعيين: تستخدم بوابة إعادة التعيين +7 خلية الحالة ۸-1 وإدخال ع 
لتحديد مقدار المعلومات السابقة التي يجب نسيانها. يتم حساب هذه الخطوة 
بالمعادلة التالية: 


r, = O(W,xX; + Uh, .) 


الفصل الثانى: التعلم العميق الخاضع للأشراف 


3. محتوى الذاكرة الحالي: حان الوقت الآن للنظر في كيفية تحديد البوابات للإخراج. 
للقيام بذلك » يتم SLE‏ حساب الذاكرة الجديدة التي تستخدمها بوابة إعادة التعيين 
لتخزين معلومات حول الماضي على النحو التالي: 


h, = tanh (wx, +r © Uhia) 
سيحدد هذا ما تمت إزالته من الخطوة السابقة. على سبيل المثال » لنفترض في‎ 
الجملة: "هذا كتاب تاريخي ..." يظهر في‎ CLS تحليل المشاعر النظرية حول‎ 
بداية الفقرة وفي الفقرات التالية » الجملة: "لم يعجبني هذا الكتاب لم يكن لديه‎ 
تفاصيل كاملة". يأتي. الآن . لتحديد مشاعر هذا الرأي . نحتاج فقط إلى الجمل‎ 
النهائية للنص. لذلك . يمكن تعيين متجه غ7 قريب من الصفر. سيؤدي هذا إلى‎ 
مسح المعلومات السابقة والتركيز فقط على الجمل الأخيرة.‎ 

4. الذاكرة النهائية: في الخطوة الآخيرة . قررت الشبكة تخزين معلومات الذاكرة الحالية 
ونقلها إلى الشبكة عن طريق حساب المتجه he1‏ . يتطلب هذا بوابة تحديث لتحديد 
المعلومات التي يجب جمعها من محتوى ذاكرة Ny‏ الحالية و الخطوة السابقة Piya‏ 
يتم حساب هذه الخطوة بالمعادلة التالية: 

hy = (1 - z)Oh,., + z Oh, 
على تخزين المعلومات وتصفيتها باستخدام‎ Gob GRU oK: كما رأينا‎ 
النموذج لا يغسل المدخلات‎ oY نظرًا‎ . Cad بوابات التحديث وإعادة التعيين.‎ 
الجديدة في كل مرة وينقلها إلى الخطوات التالية » فلا توجد مشكلة في تلاشي‎ 
الانحدارات.‎ 


في ما يلي . سنقارن بإيجاز بين LSTM‏ و -GRU‏ 
التشابه بين GRU gLSTM‏ 


o‏ يحتوي كل من LSTM‏ و GRU‏ على وحدات تحديث بمكونات مضافة من 
إلى 1 + + غير موجودة في RNN‏ التقليدية. 

e‏ تحتفظ كل من وحدات LSTM‏ و GRU‏ بالمحتوى الحالي وتضيف محتوى 
جدیدا فوقه. 

e‏ — تعمل GRUsLSTM‏ على القضاء على مشكلة تلاشي الانحدار وانفجارها 
في RNN‏ التقليدية. 
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GRU gLSTM (ju الاختلاف‎ 


LSTM بوابتين للتحديث وإعادة التعيين. في المقابل . يحتوي‎ GRU تمتلك‎ e 
إخراج مثل‎ ily GRU على ثلاثة بوابات » ادخال واخراج ونسيان. ليس لدى‎ 
نسيان مشابهة ل‎ Ups كمدخل‎ GRU تحديث‎ Uy تعمل‎ .LSTM 
.LSTM 

e‏ معاملات GRU‏ . لذا فهي أكثر كفاءة من الناحية الحسابية وتتطلب 
بيانات أقل للتعميم من -LSTM‏ 

e‏ لا تحتوي GRU‏ على ذاكرة داخلية (Cr)‏ لتمييزها عن الحالة المخفية. من 
ناحية أخرى » LSTM bibs‏ على حالة CAIUS SIU‏ 


آلة تورينج العصبية “NTM)‏ 


آلة تورينج العصبية هي المحاولة الأولى لبناء بُنية التعلم العميق لتكون قادرة على تعلم 
الخوارزميات المطلوبة. تحاول آلة تورينج العصبية أن تصمم علم النفس المعرفي ل 
"الذاكرة العاملة”" للسماح لها بالاقتراب من الطريقة التي يتعامل بها الشخص مع 
المشاكل. في هذه البنية ء تمت إضافة بنك ذاكرة خارجي إلى نظام يشبه LSTM‏ للسماح 
لهندسة التعلم العميق باستخدام الذاكرة لحساب الوظائف المعقدة وتخزين المعلومات 
للمعالجة فى نقاط الحوسبة المختلفة. مقارنة بهياكل RNN‏ ذات الذاكرة الداخلية « 
تستخدم آلة تورينج العصبية آلية الانتباه لقراءة وكتابة الذاكرة الخارجية بكفاءة. هذا 
يجعلها خيارًا أفضل للاعتماد على المدى الطويل. 


الفكرة الرئيسية لمعمارية تورينج العصبية هي فصل الحساب عن الذاكرة. يهدف 
هذا الفصل إلى تقليل الخلل فى الشبكات العصبية المتكررة » لأنه فى الشبكات العصبية 
المتكررة » موزيادة قدرة الحالة gone BAG‏ تعقيدها E‏ تتكون بنية 
آلة تورينج العصبية من مكونين أساسيين: وحدة تحكم في الشبكة العصبية وبنك ذاكرة. 
يوضح الشكل 32-2 البنية عالية المستوى لآلة تورينج العصبية. مثل معظم الشبكات 
العصبية » تتواصل وحدة التحكم مع العالم الخارجي من خلال متجهات المدخلات 
Neural Turing machine‏ 1 


? إنه مفهومني الإدراك البشري يصف الاحتفاظ بالمعلوماتفي العقل وكيف يعمل» على سبيل المثال عند 
التعامل مع مشكلة رياضية أو تفسير اللغة. 
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والمخرجات . وعلى عكس الشبكة العصبية القياسية » تحقق هذه الشبكة عمليات قراءة 
وكتابة انتقائية عن طريق الاتصال بين مصفوفة الذاكرة. الذاكرة عبارة عن مصفوفة 
N X ۷‏ حيث N‏ هو عدد مواقع الذاكرة (الصفوف) و W‏ هو حجم المتجه في كل 
موقع. يتحكم في الواجهة بين الطبقات الأخرى للشبكة والذاكرة. 


الشكل 32-2 البّنية عالية المستوى لآلات تورينج العصبية 


وحدة التحكم: وحدة التحكم عبارة عن شبكة عصبية توفر عرضًا داخليًا للمدخلات التي 
يستخدمها رأس القراءة والكتابة للتفاعل مع الذاكرة. بمعنى ST‏ إنها العلاقة بين بيانات 
الإدخال والذاكرة. يعد نوع وحدة التحكم أهم خيار في هندسة آلة تورينج العصبية. يمكن 
أن تكون وحدة التحكم هذه شبكة عصبية متكررة أو حتى شبكة عصبية أمامية التغذية. 
آليات القراءة والكتابة: رأس القراءة والكتابة يجعل آلة تورينج ممتعة. إنها المكونات 
الوحيدة التي تتفاعل Glo‏ مع الذاكرة. Fey‏ على الأوامر الواردة من وحدة التحكم » يختار 
الرأس موقعًا oly‏ أو أكثر من مواقع الذاكرة للقراءة أو الكتابة من خلال الظهور في 
فتحات الذاكرة بدرجات متفاوتة. 

في ما يلي » سوف نولي اهتمامًا بالتفاصيل الرياضية لكيفية قراءة وكتابة العمليات وكيفية 
إنشاء متجه". لذلك . في الشكل 33-2 e‏ يتم تقديم بنية الشبكة العصبية بطريقة أكثر 
ملاءمة للوصف. في هذا المخطط . تمثل وحدة التحكم بالحرف € » ومصفوفة الذاكرة 


* لمزيد من التفاصيل وكيفية المعالجةء يمكنك الرجوع إلى هذا المصدر: 


https://www.niklasschmidinger.com/posts/2019-12-25-neural-turing-machines 
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£ 


بالحرف M‏ وأهداف القرا 


ع 


والكتابة بالحرفين Wo R‏ و ٤‏ يمثل كل خطوة » و Xt‏ 


المدخلات فى كل خطوة » و ۸ الحالة الحا 


لية. 


الشكل 33-2 بنية آلة تورينج العصبية مع مزيد من التفاصيل 
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القراءة 


افترض أن لدينا رأس قراءة R‏ وذاكرة Me‏ في الوقت 6. في مثالنا e‏ تحتوي هذه الذاكرة 
على 4 فتحات ذاكرة منفصلة . كل منها يخزن متجها BUS‏ خماسي الأبعاد. استنادًا إلى 
المدخلات الحالية من وحدة التحكم . تولد قراءة الرأس متجها قياسيًا للانتباه بقيم بين 
0 و1 وإجمالي المجموعة 1. يحدد الرأس مقدار التركيز المعطى لكل موقع. باستخدام 
هذه الأوزان . يمكننا تحديد إجراء القراءة بواسطة متجه Ty‏ يمكنه القراءة من الذاكرة: 


r=) )تس‎ MG) 
i 
WH يمكن تصور هذه العملية على مرحلتين. أولاً» يتم ضرب كل عنصر من متجه الانتباه‎ 


في الصف المقابل في الذاكرة. GE‏ تتم إضافة الصفوف مما لإنشاء متجه ciel AU Tg‏ 
كما هو موضح أدناه: 


w; ' (i)M(i) 


متجه القراءة هو نتيجة مجموع الاوزان لمحتويات الأماكن. 
الكتابة 
مستوحاة من LSTM‏ يمكن تقسيم عملية الكتابة إلى جزأين: الحذف والإضافة. في 


الوقت c£‏ لدينا رأس W LES‏ مع أوزان الانتباه Wi"‏ ومصفوفة ذاكرة من الخطوة الزمنية 
السابقة Me-‏ قبل أن نتمكن من حذف المعلومات » يجب أن نحدد إلى أي مدى ينبغي 
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حذف كل عنصر من العناصر المخزنة. لهذا الغرض e‏ نقدم متجه الحذف بنفس أبعاد 
موقع ذاكرة الوحدة والقيم في النطاق [0.1]. يوجد كل عنصر خلية في موقع محدد 
ويشير إلى النسبة المثوية للخلية التي يجب حذفها. على سبيل المثال « إذا كان أحد 
العناصر في .© له قيمة 1 . فسيتم حذف قيمة الخلية المقابلة في موقع الذاكرة GLS‏ 
اضرب الأوزان في متجه الحذف للحصول على مصفوفة بأبعاد مماثلة لذاكرتنا: 


يمثل كل صف من المصفوفة الناتجة إصدارًا مختلفًا من متجه الحذف الأصلي « Gilly‏ 
يتم قياسه Gig‏ لمقدار انتباه الرأس في ذلك الموقع. يمكننا تفسير هذه المصفوفة على 
أنها مرشح واضح. OY‏ محتوياته تصف النسبة المئوية لخلية ذاكرة معينة يجب حذفها. 
بطرحها من المصفوفة الثانية E‏ يحولها إلى مرشح متبقي بتأثير معاكس. 


E wY e E - w'e 


لإنهاء خطوة الحذف . نقوم ببساطة بحساب ضرب العناصر التي تم إنشاؤها بين المرشح 
وذاكرة الخطوة السابقة: 
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Mia 


من وجهة نظر رياضيةء يمكن التعبير عن الخطوات المذكورة أعلاه بالمعادلة التالية: 
M, = Mia? [E - wer]‏ 
في هذه المعادلة » يتم حذف مصفوفة الذاكرة „Mg‏ 


الخطوة التالية في عملية الكتابة هي إنشاء المعلومات التي تحتاج الذاكرة القديمة 
للتحديث بها. لتحقيق هذا الهدف . نقدم متجها © ونضربه في متجه الانتباه. هذه 


مرة أخرى » يمثل كل صف من المصفوفة إصدارًا مختلفًا من المتجه الأصلي « والذي 
يتم قياسه Gig‏ لقيمة رأس الانتباه في ذلك الموقع. أخيرًا ٠‏ تنتهي عملية الكتابة بإضافة 


مصفوفة التحديث إلى الذاكرة التي تم حذفها: 
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يمكن التعبير عن العملية الكاملة لمرحلة الكتابة من خلال مجموعة المعادلات التالية: 
M, = M;-1° [E — we" ei]‏ 
M, = M, + wea,‏ 
أو يمكن التعبير عنها به شكل أكثر إحكاما: 


M, = Ma? [E = wh’ e, + wv a, 


CNN! الالتفافية‎ iun الشبكات‎ 


الصور هي نوع خاص من بيانات الإدخال. نحن نستخدم الصور للتواصل مع مجموعة 
متنوعة من الأشياء لأسباب مهنية واجتماعية وشخصية. من وضع علامات على وجه 
صديق إلى العثور عليه بسهولة أكبر في مجموعة من الصور إلى الحكم على ما إذا كانت 
صورة الاشعة حالة طبية تتطلب نظرة فاحصة. استخراج المعاني من الصور مهم جدا. في 
هذا القسم » يتم استخراج معاني الصور باستخدام فكرة تسمى الالتفاف. 

بالنسبة لبعض أنواع البيانات » وخاصة الصور » لا تعمل شبكات امامية التغذية بشكل 
جيد. كما ذكرنا Ls‏ في شبكات امامية التغذية » يتم توصيل كل خلية عصبية بشكل 
كامل بكل من الخلايا العصبية في الطبقة التالية. بتعبير أدق » تحسب كل خلية عصبية 
في الطبقة المخفية دالة تعتمد على قيم كل عقدة في طبقة الإدخال. ومع ذلك . في 
عمليات التعرف المرئية » Le WE‏ يكون من المفيد استخدام LIN‏ التحتية المحلية في 
الصورة. على سبيل المثال » البكسلات القريبة من بعضها في صورة ما (وحدات البكسل 
المتجاورة) مترابطة بشدة. ومع ذلك › فإن البكسلات البعيدة في الصورة لها ارتباط أقل 
أو منعدمة. لذلك c‏ ليس من المستغرب أن تستند العديد من عروض الميزات المستخدمة 
في مشاكل رؤية الكمبيوتر إلى الميزات المحلية في الصورة. في بنية الشبكة العصبية 
الالتفافية ‏ تُشرك هذه البّنية التحتية المحلية عن طريق تقبيد كل خلية عصبية للاعتماد 
فقط على مجموعة فرعية محلية من متغيرات الطبقة السابقة. 


1 Convolutional Neural Networks 
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الميزة الثانية التي تميز الشبكة العصبية الالتفافية عن الشبكات العصبية التقليدية هي 
أن أوزان حافة الشبكة شائعة في الخلايا العصبية المختلفة في الطبقات المخفية. تأكد 
من تذكر أن كل خلية عصبية في الشبكة تحسب أولاً مجموع الوزن الخطي من مدخلاتها. 
يمكننا أن نرى هذه العملية كتقييم لفلتر خطي على قيم الإدخال. في هذا السياق » قسمة 
وزن العديد من الخلايا العصبية في طبقة مخفية اي تقييم فلتر في عدة نوافذ فرعية لصورة 
الإدخال. في هذا الصدد c‏ يمكننا أن نرى الشبكة العصبية الالتفافية كمجموعة تعليمية 
فعالة من الفلاتر . كل منها ينطبق على جميع النوافذ الفرعية لصورة الإدخال. يؤدي 
استخدام نفس الفلاتر في جميع أنحاء الصورة إلى إجبار الشبكة على تعلم الترميز العام 
أو تمثيل البيانات الأساسية. ميزة أخرى لمشاركة الوزن هي أنها تقلل بشكل كبير من عدد 
المعاملات في الشبكة وتجعل التدريب أسهل وأكثر كفاءة. 


قبل تطوير التعلم العميق في رؤية الكمبيوتر . كان التعلم يعتمد على استخراج 
متغيرات مهمة تسمى السمات. ومع ذلك . تتطلب هذه الأساليب الكثير من الخبرة في 
معالجة الصور. أحدثت الشبكات العصبية المترابطة التي eal‏ ليكان! ثورة في معالجة 
الصور وألغت استخراج الميزات يدويًا. 

الشبكات العصبية الالتفافية هي نوع خاص من الشبكات العصبية في معالجة 
lL‏ والتي لها X5‏ مكانية محددة وشبكية. تربط هذه الشبكات المدخلات القريبة 
من بعضها G‏ بطريقة مفيدة. على سبيل المثال » يمكن اعتبار وحدات البكسل في 
الصور شبكات ثنائية الأبعاد. هذا الافتراض صحيح بالنسبة OY opel‏ البكسلات 
المتقاربة ترتبط ارتباطًا t s‏ ببعضها البعض. ظهرت الشبكات العصبية الالتفافية من 
دراسة القشرة البصرية للدماغ واستخدمت في التعرف على الصور منذ الثمانينيات. على 
مدى السنوات العديدة الماضية » تمكنت شبكات CNN‏ من تحقيق أداء خارق في 
بعض التطبيقات المرئية المعقدة . وذلك بفضل زيادة قوة الحوسبة وزيادة بيانات 
التدريب. 


لعبت الشبكات الالتفافية دورًا مهما في تاريخ التعلم العميق. إنها مثال مهم وناجح 
لفهمنا لدراسة الدماغ في تطبيقات التعلم الآلي. كانت الشبكات العصبية الالتفافية من 


t LeCun 
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بين الشبكات العصبية الأولى التي تم استخدامها في حل وتنفيذ تطبيقات الأعمال 
المهمة» وحتى يومنا هذا فهي في طليعة تطبيقات الأعمال في التعلم العميق. 


بنية الشبكات العصبية الالتفافية 


تتكون الشبكة العصبية الالتفافية من عدة طبقات: طبقة الالتفاف. وطبقة الدمج» والطبقة 
المتصلة بالكامل.في المستوى الأول من التعامل مع صورة SOM‏ عادة ما تتعلم الشبكة 
العصبية الالتفافية ميزات بصرية بسيطة مثل الحواف أو نقاط اللون. ثمءفي المستوى 
«sll‏ يجمع بين خصائص المستوى السابق. تؤدي إضافة المزيد من المستويات» 
اعتمادًا على البيانات وتطبيق المشكلةء إلى العثور على ميزات ذات مستوى أعلى مثل 
الوجه.ني ما يلي. ندرس كل طبقة من الطبقات المكونةفي بُنية الشبكة العصبية الالتفافية. 


طبقة الالتفاف!ا 


تعد طبقة الالتفاف أهم جزء في CNN‏ وتستخدم sls‏ كطبقة أولى. هذه الطبقة هي 
المسؤولة عن معظم الحمل الحسابي. بشكل ple‏ 01111 عبارة عن شبكة عصبية بها 
طبقة التفاف واحدة على الأقل في هيكلها. الالتفاف C‏ في تعريفه الأكثر عمومية c‏ هو 
أداء العمليات الحسابية على دالتين بقيم حقيقية. pe fess‏ الالتفاف . افترض أن 
المصفوفتين M‏ و IN‏ تم تعريفهما على النحو التالي: 


1 0 1 0 8 4 
M=|0 1 0 6 1 0 
1 0 1 


9 6 3 
لا يمكن تطبيق عامل الالتفاف إلا على المصفوفات التى لها نفس sae‏ الصفوف 
والأعمدة. لكل من المصفوفات M‏ و «IN‏ يتم إجراء عامل الالتفاف على النحو التالي: 


N= 


, 


! Convolutional Layer 
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تتمثل المهمة الرئيسية لطبقة الالتفاف في تحديد السمات (المعالم) الموجودة في 
المناطق المحلية لصورة الإدخال » والتي تكون مشتركة لمجموعة البيانات بأكملها. يؤدي 
التعرف على الميزة هذا إلى إنتاج خريطة المعالم عن طريق تطبيق عوامل الفلترة. تطبق 
طبقة الالتفاف فلتراً le Ube‏ صورة الإدخال. ينتج عن هذا تصنيف أفضل لوحدات 
البكسل المجاورة الأكثر ارتباطًا في نفس الصورة. بمعنى آخر c‏ يمكن أن ترتبط وحدات 
البكسل الخاصة بالصور المدخلة ببعضها البعض. على سبيل المثال » في صور الوجه . 
يكون الأنف ilo‏ بين العينين والفم. عندما نطبق الفلتر على مجموعة فرعية من By geal‏ 
فإننا نستخرج بعض السمات المحلية. 

يشار إلى هذه الطبقة أيضًا باسم طبقة استخراج المعالم. OY‏ يتم استخراج سمات 
الصورة في هذه الطبقة. هناك نوعان من المفاهيم الهامة في طبقة الالتفاف. الخطوات! 
والحشو2. الخطوات هى عدد وحدات البكسل الأساسية أو الفلتر الذي يتحرك على 
مصفوفة S JE oN‏ الفلتر يتحرك أفقيًا وعموديًا). يتم استخدام الحشو عندما لا 
يتناسب الفلتر مع مصفوفة الإدخال. هناك نوعان من الحشو: طبقات صالحةة وطبقات 
موحدة4 أو صفر. في الطبقات الصالحة . يتم تجاهل وحدات بكسل الإدخال لمصفوفة 
الإدخال. تضيف الطبقة الموحدة أصفارًا إلى الهامش بحيث يلائم الفلتر مصفوفة 
الإدخال. 


سنقوم الآن باختبار هذه الطبقة بمثال. هناك ثلاثة مكونات مهمة في طبقة الالتفاف: 


e‏ صورة الادخال 


1 strides 

2 padding 

3 valid padding 
4 same padding 
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ه كشف الميزات1 
e‏ خريطة الميزات2 
افترض أن صورتنا الأصلية في الشكل 34-2. بعد تحويلها إلى نموذج إدخال . كما هو 


الشكل 34-2 صورة الادخال 


Input Image Feature 
Detector 


الشكل 35-2 الصورة المدخلة بعد التحويل 
يستخدم الشكل 35-2 كاشف الميزة » يشار إليه عادة بالنواة أو الفلتر c‏ بقياس 3 3. 
تستخدم المصفوفة 3 x‏ 3 هذه من الزاوية اليسرى العلوية للصورة كما هو موضح في 
الشكل 36-2 لعدد الخلايا التي يتطابق فيها كاشف الميزة مع صورة الإدخال. وبتطبيق 
عامل الالتفاف c‏ يتم الحصول على القيمة الأولى لخريطة البيانات الجدولية. ثم ينتقل 
كاشف الميزة إلى اليمين ويفعل الشيء نفسه لإكمال الصف الأول من خريطة المعالم. 


1 Feature detector 
? Feature map 
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بعد مغادرة الصف الأول c‏ انتقل إلى الصف التالى وكرر هذه العملية حتى تكتمل خريطة 


Feature Map 


Input Image Feature 
Detector 


الشكل 36-2 كيفية الحصول على خريطة الميزات 


Feature Map 


Input Image Feature 
Detector 


الشكل 37.2 خريطة الميزات 
طبقة الدمجا 
عادة ما يتم استخدام Ab‏ الدمج بشكل دوري بين طبقتين متتاليتين من الالتفاف. 
وتتمثل مهمتها في تقليل حجم خرائط المعالم. بالإضافة إلى استخراج الميزات المهمة 


في خريطة المعالم « فإن هذا يقلل أيضًا من القوة الحسابية المطلوبة لمعالجة البيانات 
عن طريق تقليل كمية المعاملات. هناك طبقتان مهمتان من طبقات الدمج: الحد الاقصى 


1 Pooling Layer 
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الأقصى من الدمج له أداء أفضل في استخراج الميزات المهيمنة والمهمة. 


max pooling 


20 30 


112 | 37 


average pooling 


4x4 feature map 


الشكل 38-2 الفرق بين الحد الأقصى من الدمج ومتوسط الدمج 
الطبقة المتصلة بالكامل " 


تتكون الشبكات العصبية الالتفافية من مرحلتين رئيسيتين: مرحلة استخراج الميزات 
المتصلة بالكامل فى الشبكة العصبية الالتفافية مثل الطبقات المخفية للشبكة العصبية 
القياسية وتقع في نهاية الشبكة العصبية الالتفافية. هذه الطبقة هي بالضبط المكان الذي 
يحدث فيه التصنيف. بعد استخدام عدة طبقات مختلفة c‏ يمكن استخدام الطبقة المتصلة 
بالكامل في نهاية شبكة CNN‏ لحساب الميزات المرغوبة ودرجات الإخراج. الإخراج 
هو متجه N‏ بعدي حيث يشير N‏ إلى عدد الفئات. على سبيل المثال « نريد إجراء 
يشير كل رقم في المتجه إلى احتمال وجود فئة معينة. تحدد الطبقة المتصلة بالكامل 
السمة الأكثر صلة بفئة معينة. على سبيل المثال » في صورة طائر . توجد قيم عالية 
المستوى في خريطة المعالم تمثل ميزة جناح الطائر. افترض أن قيم المتجه التي تم 
الحصول عليها في هذه الطبقة هي كما يلي: 

1 Max Pooling 


? Average Pooling 
3 Fully connected Layer 
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[0.4 , 0 , 0.003 , 0.87] 


تظهر هذه النتائج أن هناك احتمال بنسبة 70.87 أن تكون الصورة لطائر. يوضح الشكل 
39-2 مثالاً لشبكة عصبية التفافية في تصنيف الصور. 


EL 
EN 
convolution + max pooling 
nonlinearity 
convolution + pooling layers fully connected layers Nx binary classification 


الشكل 39-2 مثال على الشبكة العصبية الالتفافية في تصنيف الصور 
الحشو والخطوات 


في كثير من الحالات . نستخدم طرق الحشو والخطوات المتقاربة التي تؤثر على حجم 
المخرجات. نظرًا OY‏ الفلاتر يبلغ ارتفاعها وعرضها أكثر من 1 . فإن استخدام الالتفافات 
المستمرة يقلل بشكل كبير من المخرجات بالنسبة للإدخال. على سبيل Seal‏ إذا بدأنا 
بصورة 240 x‏ 240 بكسل. تصغر 10 طبقات التفاف 5 x‏ 5 الصورة إلى 200 x‏ 200 
بكسل. والنتيجة هي قطع 30/ من الصورة وإزالة المعلومات الشيقة داخل حدود الصورة 
الأصلية. تعد الحشو هي الأداة الأكثر شيوعًا لحل هذه المشكلة e‏ ويتمثل حلها في إضافة 
وحدات بكسل حشو إضافية حول حدود صورة الإدخال. dle‏ ما نضبط قيم هذه 
البكسلات على صفر. في حالات أخرى » قد نرغب في تقليل البعد بشكل كبير SE)‏ 
سبيل المثال » إذا كانت دقة صورة الإدخال الأصلية ليست جيدة). خطوات الالتفاف هي 
الطريقة الأكثر شيوعًا للمساعدة في ذلك. 


يمكن استخدام الخطوات والحشو بشكل فعال لضبط أبعاد البيانات 
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التدريب في CNN‏ 


تشبه عملية التحسين على 1317© تلك الخاصة بالشبكات العصبية للتغذية الامامية. 
وبالمثل . يتم تعلم معاملات الشبكة عن طريق خوارزمية الانتشار الخلفي وتحسين 
الانحدار الاشتقاقى. المرحلة الأولى هى الانتشار الأمامى » حيث تنتشر الإشارات من 
مدخلات الشبكة إلى الخرج. في الطبقة الأخيرة م مقارنة الإخراج بواسطة دالة التكلفة 
بالقيمة المطلوبة ويتم تقدير الخطأ. في المرحلة الثانية » يتم استخدام خوارزمية الانتشار 
الخلفي مرة أخرى لتعويض هذا الخطاً. ومع AUS‏ فإن عملية التعلم في الشبكة العصبية 
الالتفافية أكثر acia‏ مما هي عليه في الشبكة العصبية للتغذية الامامية » حيث تتكون من 
أنواع مختلفة من الطبقات . وتتبع مرحلتا الانتشار الأمامي والخلفي قواعد محددة في 
كل طبقة. الخلايا العصبية في الشبكة العصبية الالتفافية لها وزن مشترك . على عكس 
الشبكة العصبية أمامية d oc a‏ .كرون لك ج عضي gue‏ منفصل. يؤدي 
تقاسم الأوزان هذا إلى تقليل إجمالي عدد الأوزان القابلة للتدريب. 

الانتشار الامامي في طبقة SLOU UI‏ 

كل طبقة التفاف تدور حول مدخلاتها في حالة تطبيق عامل الالتفاف. بافتراض أن 
مدخلات الطبقة هي oly N × N‏ فلترها هو MX M‏ الالتفاف دون استخدام التسلسل 
الصفري )1 + (N — m + 1( x (N - m‏ وحساب الالتفاف الناتج xi;‏ سيكون على 
النحو التالي: 


1-1 
Xij — WabY(i+a)(j+b) 


حيث i je(n-—m+1)‏ 1 هو مؤشر الطبقة الحاليةء Way‏ وزن الفلتر و 
Yay ub)‏ هو ناتج الطبقة السابقة. 
بعد ذلك . يتم حساب ناتج طبقة الالتفاف yj‏ من خلال تطبيق دالة تنشيط غير خطية 
على خرج الالتفاف up‏ 

yi = a(xi;) 
Adam حيث 6 هي دالة تنشيط غير‎ 
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ju ul‏ ^ ار JI‏ خلفي في لبقت الالتفاف 

يتبع الانتشار الخلفي في طبقة الالتفاف نفس مبادئ خوارزمية الانتشار الخلفي الموضحة 
في الفصل الثاني. الاختلاف الوحيد هو أن فلتر الالتفاف يشترك في وزن الطبقة بأكملها 

UT‏ فى الفلتر. إذا افترض أن قيمة دالة الخطأ هي E‏ . فيجب حساب تأثير 


روخ الفا le‏ قالة BIL AUN‏ إلى ads‏ الخطا فى GAY Eb‏ رال Byes‏ 
لخطأ الطبقة السابقة فيما يتعلق بكل خلية عصبية ig Ul‏ 


N-m N-m 


OE -y 5 OE Oxi; 
OWap í-0 420 Ax}, OWap 


لأننا كان لدينا: 


l- 
Xij — Oqb Y(ita)(4b) 


ينتج عن ذلك: 


لذلك لدينا: 


aE QE a 
Wan 2 xl, Yeey geo) 


لحساب الانحدار الاشتقاقي c‏ نحتاج إلى معرفة القيمة ك » والتي تسمى QU.‏ دلتا. 
ij‏ 
حساب gd‏ قانون السلسلة: 


OE _ ðE dy; _ ðE 


axl yl; Oxi, uU 


Ox Ox = (6 (x ip) = ay! L é(xl) 


ij 


pce. Sta 


وذلك باستخدام مشتق aslo‏ 
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التنشيط (xc)‏ نظرًا WY‏ نعرف الأخطاء فى الطبقة الحالية . فلدينا الآن كل ما نحتاجه 
لحساب الانحدار الاشتقاقي » بالنظر إلى الأوز ان المستخدمة بواسطة طبقة الالتفاف هذه. 
بالإضافة إلى ذلك . لحساب وزن طبقة الالتفاف هذه . نحتاج إلى نقل الأخطاء إلى 
الطبقة السابقة. يمكننا استخدام قانون السلسلة مرة أخرى: 


من المعادلة: 
m-1m-1‏ 
ba 1-1‏ 
Xij = WabV(i+a)(j+b)‏ 
a=0 b=0‏ 
axl, ;‏ 
pars e xa-og-b) _ ; s‏ 
يتضح أن TA Wap‏ لذلك لدينا: 
m-1m-1‏ 
QE QE‏ 
I1 ab‏ 


تعطينا هذه القيمة خطأ الطبقة السابقة. 
أسباب استخدام CNN‏ لتصنيف الصور 


هناك iae‏ أسباب لاستخدام NN‏ )بدلا من بيرسيبترون متعددة الطبقات لتصنيف 
الصورة: 


e‏ عادة ما تؤدي الصورة كمدخلات إلى SEL‏ كبيرة جدا » لأن كل بكسل هو 
قيمة إدخال. إذا تم استخدام شبكة عصبية ole‏ فقط , فإن الاتصال الكامل بين 
الطبقات يتطلب قدرًا 5:5 من الذاكرة لتخزين الأوزان. في طبقة الالتفاف لا 
يوجد اتصال كامل » على النقيض من ذلك هناك اتصال مبعثر. ينتج عن هذا 
الاتصال المبعثر ترابط أقل من الطبقة المترابطة بالكامل » مما يؤدي إلى تخزين 
وزن أقل. 
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e‏ في طبقة متصلة بالكامل » يكون كل وزن مستقلاً عن الآخر » مما ينتج عنه 
كميات كبيرة من تخزين وتسوية قيم كثيرة. ومع US‏ في الطبقة الالتفافية e‏ 
تكون الأوزان مشتركة لأن الأوزان هي القيم في الفلتر. في كل مرة يتم إجراء 
تبديل لمنطقة معينة من الإدخال . يتم إجراؤه بنفس الفلتر . وبالتالي تكون 
الأوزان هى نفسها. 

ell {Small gy °‏ توى متعدده UCI) Xl,‏ يكن ill ela‏ 
كفلتر GLESY‏ نمط صغير معين في صورة الإدخال. باستخدام نوى متعددة « 
يمكن البحث في أنماط صغيرة متعددة في وقت واحد. 


CNN aŭ 

في هذا القسم » نراجع بعض بنى CNN‏ 

LeNet 

تم تصميم GLeNet‏ عام 1998( وكان أول بنية قائمة على الالتفاف تستخدم خوارزمية 
الانشان IK le Gy all‏ بح تيم هذه wat) Xo‏ المسكتدات 
| لمكتوبة بخط اليد. على الرغم من أن البّنية قامت بعمل جيد. إلا أنها لم تكن ناجحة جد 


في ذلك الوقت وظلتفي الغموض لعقود من الزمن بعد تقديمهاء حيث واجهت المشاكل 
التالىة: 


e‏ مجموعات البيانات ذات العلامات القليلة. 


ه أجهزة الكمبيوتر البطيئة. 
٠‏ استخدام دالة التنشيط غير الخطية الخاطئة. 


در شكل 40-1 معمارى LeNet‏ قابل مشاهده است. 
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HI i 


Leet ıi 40-2 الشكل‎ 


T &JeÁe] 
z # 07 
€ # 3/7 
p # 3/67 
S 4 37 
9 4 13/87 


AlexNet 


في عام 2012 قدم أليكس كريشوفسكي! وزملاؤه نموذج AlexNet‏ كان هذا النموذج 
قادرًا على الفوز بأصعب تحدي ImageNet‏ يسمى تحدي الكشف البصري واسع 
النطاق (11,5171200) وكان ELS‏ كبيرًا في ذلك الوقت. خفض هذا النموذج معدل 
الخطأ من 26/ إلى 15/. كان هذا تقدمًا كبيرًا في اكتشاف وتصنيف رؤية IY‏ هذه 
نقطة في التاريخ نما فيها الاهتمام بالتعلم العميق بسرعة. تظهر بنية AlexNet‏ في JE‏ 


LL 


.2-41 


96: TıaAe1 
992: ziofe] 
:ع8‎ £19Áe] 
V8E : poe] 
992 : 1 

960 : 93/61 
960v: L1aAe1 


AlexNeti 41-2 الشكل‎ 


1 Alex Krizhevesky 
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ZFNet 


DLD Gob تم 5« في 2013 عن‎ AlexNet هو سخة محسنة من‎ ZFnet 
حجم الفلتر من 11×11 إلى 7×7 في‎ Ec قللت هذه‎ « AlexNet وزملاؤه. مقارنة ب‎ 
مما قلل بشكل كبير من عدد المعاملات‎ e 4 الطبقة الأولى واستخدمت الخطوة 2 بدلاً من‎ 
وزاد الدقة من خلال استخراج المزيد من المعالم المميزة. كان السبب الرئيسي لشعبية‎ 
يمكن رؤية بنية هذه الطريقة في الشكل‎ CNN هو فهم أفضل لكيفية عمل‎ Lo) هذه‎ 
2-42 


image size 224 110 . 26 43 f 13 13 
filter size 7 3 | a3 

L V 384 V 384 256 
: - 256 c 
fare 2 xa marpa مج‎ x 0 erem a: 4096 4096) class 
in2 m sate OR stride 2 units} | units | softmax 

3 ss LS 
EH a ¢ 
Input Image 96 1 In 256 c 
Layer 1 Layer 2 Layer 3 Layer 4 Layer 5 Layer 6 Layer 7 Output 


AlexNetis 42-2 الشكل‎ 


CNN obaj 


على الرغم من أن شبكات CNN‏ العميقة قد حققت cll‏ جيدا في معالجة البيانات 
المهيكلة مكانيًا . إلا أن هناك بعض التحديات التى تواجه عملية التدريب لهذه UKM‏ 
والتى تم سردها أدناه: 


e‏ تشبه شبكات CNN‏ العميقة بشكل عام الصندوق السود , لذا لا يوجد تفسير 
لها. لذلك c‏ أحيانًا يصعب دراستها. 

٠‏ يمكن أن يؤدي تدريب CNN‏ على بيانات الصور عالية الضوضاء إلى زيادة 
خطأ التصنيف. يمكن أن تؤدي إضافة قدر صغير من الضوضاء العشوائية إلى 
صورة الإدخال إلى خداع الشبكة إلى تصنيف مختلف. 

e‏ تعتمد شبكات CNN‏ العميقة على التعلم الخاضع للاشراف . لذا فهم بحاجة 
إلى بيانات ضخمة للتعلم بشكل صحيح. 


1 Zeiler 


التعلم العميق: المبادئ والمفاهيم والاساليب 


.CNN اختيار المعامل الفائق المناسب له تأثير كبير على أداء‎ e 
الفعال موارد أجهزة قوية مثل وحدة معالجة الرسومات‎ CNN يتطلب تدريب‎ e 
(GPU) 


يحدث التعلم في الشبكة العصبية عن طريق تغيير الأوزان المرتبطة بالخلايا العصبية. 


أبسط شكل هو الشبكة العصبية بيرسيبترون وهو مصنف ثنائي. 


تعد الشبكات امامية التغذية العميقة واحدة من أكثر شبكات التعلم العميق استخدامًا 
nv‏ لعدم وجود قيود على المدخلات. 


تلعب دالة المنشط دورًا مهما ورئيسيًا فى بنية الشبكة العصبية. 
تحدد دالة التنشيط الخلايا العصبية التي يجب أن تكون نشطة أو غير نشطة. 
تحدد دالة الخسارة مدى قرب الشبكة المدربة من المعيار المثالى. 


يعتبر تهيئة القيم الاولية للاوزان خطوة مهمة في بناء شبكة عصبية لتحقيق أفضل 
أداء. 

يحاول محسنوا الشبكة العميقة تقليل دالة الخسارة عن طريق تحديث الأوزان فى 
الشبكة. 

يعد الانحدار الاشتقاقى أحد أكثر خوارزميات التحسين شيوعا فى الشبكات العصبية 
العميقة. 

تسمى الخوارزمية المستخدمة لمعرفة الأوزان فى الشبكة خوارزمية الانتشار الخلفى. 
يتم LES‏ هذه الخوارزمية على مرحلتين » امامية وعكسية. 

يواجه التدريب على الشبكة العميقة تحديات مثل مشكلة تلاشي التدرجات 
وانفجارها . والضبط الزائد وحجم مجموعات التدريب . 
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التسوية هو نهج عملي لتجنب الضبط الزائد. 


أحدثت الشبكات العصبية الالتفافية ثورة في معالجة الصور عن طريق استخراج 
الميزات BUL‏ 


تلعب الشبكات العصبية الالتفافية دورًا مهما في تاريخ التعلم العميق. 


تتكون الشبكة العصبية الالتفافية من ثلاث طبقات: الالتفاف والدمج ومتصلة 
بالكامل. 


تتمثل المهمة الرئيسية للطبقة الالتفافية فى تحديد الميزات الموجودة فى المناطو 
تتمثل لر - في لميزات الموجودة في 
المحلية للصورة المدخلة. تسمى طبقة الالتفاف طبقة استخراج المعالم. 


طبقة الدمج مسؤولة عن تقليل حجم خريطة المعالم. 
تحدث مرحلة التصنيف فى الشبكات العصبية المترابطة فى الطبقة المتصلة بالكامل. 


تم تصميم الشبكات العصبية المتكررة لمعالجة البيانات المتسلسلة. 


أسثلة للمراجعة G‏ 
0 


قم بتسمية الطبقات المختلفةفي شبكات التغذية العميقة ووصف استخدام كل منها. 
كيف يتم تحديد عدد الخلايا العصبيةفني طبقة إدخال الشبكة؟ 

كيف يتم تحديد عدد الخلايا العصبيةفي الطبقة المخفية؟ 

كيف يتم تحديد عدد الخلايا العصبيةفي طبقة الإخراج؟ 

ما هي بعض الأمثلة على دوال التنشيطفي التعلم العميق؟ 

ما الخطأفي تعيين أوزان الشبكة إذا تم ضبط جميع القيم على صفر؟ 

ما سبب تفضيل الانحدار الاشتقاقي العشوائي على الانحدار الاشتقاقي؟ 

ما هي بعض الأمثلة على خوارزميات التحسين ذات معدل التعلم التكيفي؟ 

ما الذي يسبب تلاشي التدرجات وانفجار التدرجات؟ ما هي السبل للهروب من هذه 
المشاكل؟ 


عم ذخ هن ل سن o 0 uo‏ 
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. ما الذي يسبب الضبط الزائدفي الشبكات العصبية؟ 
. ما فائدة التسوية بالدفعاتفي الشبكات العميقة؟ 
12. 
. سمي طبقتين من طبقات الدمج؟ 

. يتم استخراج الميزاتفي أي طبقات من الشبكة العصبية الالتفافية؟ 
15. 
. ماهي مشاكل الشبكة العصبية المتكررة البسيطة؟ 

. ماهي أنواع بنى الشبكة العصبية المتكررة وما تطبيق كل منها؟ 
18 


لماذا يتم استخدام الحشوفي الشبكات العصبية الالتفافية؟ 


ما هي el gl‏ البواباتفي بنية LSTM‏ ووصف وظيفة كل منها؟ 


10 
11 


13 
14 


16 
17 


التعلم التمثيلي غير الخاضع للاشراف العميق: 


المشفرات الذاتية والنماذج الانتاجية 


الأهداف : 


Agel pl التعرف عل ىكيفية عمل المشفرات الذاتية‎ om 

* الفرق بين النماذج القابلة للفصل والنماذج الإنتاجية 

* التعرف على مجموعة متنوعة من نماذج التوليد العميق 
o‏ سبب استخدام التعلم العميقفي المسائل. 
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المقدمة 


يرجع النجاح المذهل للتعلم العميق إلى حد كبير إلى الخوارزميات الخاضعة للإشراف. 
من أجل تحقيق أداء جيد . يتطلب تدريب هذه الشبكات الكثير من مجموعات البيانات 
المصنفة. تكمن المشكلة في أن الحصول على مجموعة البيانات الموسومة على نطاق 
واسع لا يمكن الوصول إليه بالضرورة ‏ كما أن عملية التعليق التوضيحي تستغرق وقنًا 
طويلاً وتتطلب معرفة المجال بالموضوع. 


على الرغم من نجاح التعلم الخاضع للإشراف في السنوات الأخيرة , في الأيام الأولى 
من دورة التعلم العميق . أظهر هينتون وزملاؤه نتائج مقبولة في تقليل الأبعاد باستخدام 
المشفرات الذاتية. وبالتالي » أدى نجاح التعلم الخاضع للإشراف في القضايا الأساسية . 
مثل التعرف على الكلام وتصنيف الصور . إلى زيادة اهتمام مجتمع البحث بهذا النوع 
من التعلم c‏ بينما تم إهمال التعلم غير الخاضع للإشراف إلى حد ما. 


في الآونة الآخيرة » gb‏ اهتمام متجدد بالتعلم غير الخاضع للإشراف مع إدخال 
نموذجين جديدين للتوليد العميق » وهما شبكة الخصومة التوليدية وشبكة المشفر الذاتي 
المتغير. من المتوقع أن يلعب التعلم غير الخاضع للإشراف دورًا مهما في مستقبل التعلم 
العميق. تجدر الإشارة إلى أن التعلم غير الخاضع للإشراف لا يزال يمثل مجالًا صعبًا 
للغاية » وفي كثير من الحالات » من المرجح أن يستخدم الباحثون الأساليب الخاضعة 
للإشراف. ومع ذلك . من المثير للاهتمام ملاحظة أن الطريقة البشرية للرد على 
الملاحظات غير المتوقعة للعالم تشبه إلى حد بعيد طريقة التعلم غير الخاضع للإشراف. 
أخيرًا » Gs‏ لما ذكره يانلكان! . "الثورة القادمة في الذكاء الاصطناعي غير خاضعة 
للاشراف". 


التعلم النشط والتعلم التمثيلي بدون إشراف 


يعد التعلم التمثيلي das Views‏ التعلم الآلي الذي يهدف إلى الحصول على تمثيل 
مفيد للبيانات c‏ ولأنه يمكن تفسيره على أنه تعلم ميزات مفيدة e‏ فإنه يُعرف Caf‏ باسم 


1 https://engineering.nyu.edu/news/revolution-will-not-be-supervised-promises-facebooks-yann- 
lecun-kickoff-ai-seminar 
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تعلم الميزة. غالبًا ما يكون الدافع وراء هذه الأساليب هو العثور على تمثيل جيد للبيانات 
لاستخدامه في مشاكل التصنيف والانحدار لطريقة مؤتمتة ومعممة. ركز العمل الأخير 
في مجال التعلم العميق على تطوير الخوارزميات التي يمكنها GUE‏ تعلم التمثيلات 
الأساسية أو الميزات من البيانات نفسها. الشبكات العصبية العميقة e‏ على سبيل المثالء 
يمكن اعتبارها Ga‏ خاضعًا للإشراف ؛ التعلم الهرمي للتمثيلات الموزعة التي تشبه 
الطبقات المخفية ويتم إنشاؤها من التمثيلات منخفضة المستوى إلى التمثيلات عالية 
المستوى لتحقيق الهدف النهائي الخاضع للإشراف. في حالة الخوارزميات غير الخاضعة 
SU‏ يتم تعلم هذه الميزات من البيانات غير المسماة. من بين الخوارزميات 
المختلفة المعروفة لتعلم التمثيل غير الخاضع للإشراف ٠‏ المشفرات الذاتية والات 
بولتزمان. 

تتطلب معظم نماذج التعلم الآلي الخاضعة للإشراف كميات كبيرة من البيانات 
للتدريب وتحقيق نتائج جيدة. في معظم الحالات» يتم تزويد الباحثينفي علم البيانات 
بمجموعة كبيرة من البيانات غير المصنفة ويطلب منهم تدريب نماذج جيدة الأداء. يشكل 
تصنيف كميات كبيرة من البيانات يدويًا تحديًا كبيرًا. هذا هو المكان الذي يكون فيه 
التعلم النشط مفيدا. التعلم النشط هو مجال من مجالات التعلم الآلي الذي يتعامل مع 
الموقف الذي يستغل مشكلة البيانات غير المسماة من خلال تحديد أولويات البيانات 
التي يجب تسميتها من أجل جعل النموذج أكثر فعالية. بمعنى آخر التعلم النشط هو 
تحسين نقاط البيانات التي يجب تحديدها لوضع العلامات وتدريب النموذج. 


على الرغم من التطورات الحديثةني التعلم التمثيلي الخاضع للأشراف. فإن السؤال 
الذي يطرح نفسه؛ هل من الممكن الحصول على تمثيل "قوي" لهذا النهج من البيانات 
غير المسماة دون أي اشراف؟ يمكن الإجابة على هذا السؤال BY oles VL‏ يمكن تعلم 
العديد من الأشياء (الميزات المفيدة) من البيانات غير المسماةء وخاصة البيانات الكبيرة 
الشبيهة بالصور (يتم عرض بيانات الصورة بشكل عام بقيم البكسل ويتم إخفاء معظم 
المعاني (Led‏ يمكننا استخدام طرق غير خاضعة للإشراف لتعلم العروض غير المسماة 
بشكل De) ail‏ ما يكون الحصول عليها أسهل بكثير) حتى قبل استخدام سيناريو 
التعلم النشط للحصول على علامة للتعلم الإشرافي. هناك العديد من الطرق للعمل مع 
البيانات غير المسماة.في هذا الفصلء نركز على الفرضية القائلة Gh‏ يمكن استخدام 
البيانات غير المسماة للتعلم التمثيلي الجيد. يعد التعلم غير الخاضع للإشراف أحد 
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مجالات البحث النشطةفي التعلم JY‏ ويعتبر حلها خطوة Binge‏ تطوير الذكاء 


المشفرات الذاتية 


في الشبكات العصبية الاصطناعية c‏ تم تطوير الانتشار الخلفي لتحسين التعلم التمثيلي. 
تتضمن عملية الانتشار الخلفي إعادة ترتيب الأوزان اعتمادًا على المخرجات المتوقعة. 
في الثمانينيات c‏ تم تقديم المشفرات الذاتية لإعادة نشرها بدون معلم. وهذا يعني أن 
المشفرات الذاتية توفر طريقة لتعلم الميزات GLE‏ من البيانات غير المصنفة التي تسمح 
بالتعلم غير الخاضع للاشراف. في الشبكات العصبية التي تمت مناقشتها حتى الآن › 
كانت هناك حاجة إلى البيانات ذات العلامات لتكون بمثابة أمثلة تدريب ضرورية لضبط 
الانشار الخلفي » حيث تستخدم هذه العلامات لإعادة تعيين المعاملات. ومع ذلك › 
توفر المشفرات الذاتية فرصة للتعلم دون الاعتماد على البيانات المصنفة. 


تؤدي الشبكة العصبية ذاتية التشفير الانتشار الخلفي عن طريق ضبط قيم الإخراج 
المستهدفة التي تساوي قيم الإدخال « وبالتالي تدريب المشفر الذاتي لتقليل الاختلاف 
بين البيانات وإعادة بنائها (أي الفرق بين متجه الإخراج الفعلي ومتجه الإخراج المتوقع» 
حيث يكون الناتج المتوقع هو نفسه متجه الإدخال). نتيجة لذلك . يمكن للمشفرات 
الذاتية التعلم بدون معلم (مشرف). 


بشكل ple‏ المشفر الذاتي هو نوع من الشبكات العصبية الاصطناعية التي تحاول 
محاكاة أكبر قدر ممكن من المخرجات من خلال تلقى المدخلات قدر الإمكان. الهدف 
هو dole]‏ بناء المدخلات الرئيسية بأكبر قدر ممكن " الدقة (بدلاً من محاولة التنبق 
بنتيجة محددة e‏ يحاولون إعادة ely‏ المدخلات الخاصة بهم). بمعنى ST‏ يقوم بنسخ 
الإدخال. عادة ما يتم تقييد المشفرات الذاتية بطريقة تسمح فقط بنسخها. نظرًا OY‏ 
يتعين على النموذج تحديد أولويات سمات الإدخال التي يجب نسخها . فإنه غالبا ما 
يتعلم سمات البيانات المفيدة. ظاهريًا > قد يبدو إنشاء نسخة من المدخلات إلى 
المخرجات (إخراج الشبكة يساوي الإدخال) مهمة تعليمية غير مهمة › لكننا سنرى أنها 
ليست كذلك. الفكرة هي أنه بالإضافة إلى تدريب الشبكة على النسخ من المدخلات إلى 
المخرجات » يتم تطبيق بعض القيود. 
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القيد الشائع هو وضع عنق الزجاجة في منتصف الشبكة. يتم إعطاء هذا الاختناق 
بعدًا أصغر بكثير من المدخلات والمخرجات. هذا يفرض على الشبكة عدم JE‏ 
المدخلات فقط إلى المخرجات وعدم الحصول على جميع المعلومات الموجودة في 
الإدخال. يمكن اعتبار AR‏ عنق الزجاجة نسخة مضغوطة من الإدخال. تسمى هذه 
النسخة المضغوطة الإدخال أو التمثيل أو الترميز أو أحيانًا ببساطة التشفير. 


كما رآينا « يمكن أن يمثل هذا القيد على الشبكة بنية بيانات مثيرة للاهتمام. تسمح 
هذه الطريقة باكتشاف التمثيلات الداخلية للبيانات التي تعتمد على ميزات أقل. على 
سبيل المثال » في التعرف على الوجوه » يمكن عرض كل بكسل من الصورة في طبقة 
الإدخال. يتم ضغط هذه البيانات في ميزات مثل "الفم الصغير" أو "العيون الكبيرة" في 
الطبقة المخفية. أي أنه يمكن وصف بيانات إدخال الوجه باستخدام بيانات أقل من تلك 
الواردة في الصورة. بعد ذلك . يمكن إلغاء ضغط البيانات المضغوطة لتمثيل بيانات 
الإدخال مرة أخرى في طبقة الإخراج c‏ مما يسمح بإعادة بناء صورة الوجه بالكامل من 
الميزات التي تعلمها. 


يسمى هذا النوع من التعلم في المشفر الذاتي Cast‏ التعلم بالاشراف الذاتي « OY‏ 
النظام يتعلم بالفعل بطريقة خاضعة للإشراف باستخدام دالة التكلفة والانتشار الخلفي « 
ولكنه لا يحتاج إلى بيانات مصنفة. نتيجة لذلك e‏ يعد استخدام المشفر الذاتي طريقة 
شائعة للتدريب على الشبكة عندما يكون لديك وصول فقط إلى القليل جد من البيانات 
المصنفة ولكن بكميات كبيرة من البيانات غير المسماة يتم استخدام المشفرات الذاتية 
بشكل تقليدي للتدريب المسبق: أي أنك تقوم أولاً بتدريب المشفر الذاتي على مجموعة 
بيانات غير مسماة » ثم تضيف عدة طبقات مترابطة تمامًا وتجمد الأوزان الأصلية. تقوم 
بعد ذلك بتعليم الطبقات الأخيرة على مجموعة أصغر من البيانات المسماة. بهذه 
الطريقةء يتم استخدام المشفر الذاتي كأساس لتدريب المصنف. 


à LU‏ المشفرات الذاتبة 


تعتبر المشفرات الذاتية نفسها نوعًا خاصًا من الشبكة العصبية امامية التغذية التى يكون 
مدخلها هو الإخراج. في هذه الشبكة . يتم ضغط الإدخال في شفرة بأبعاد أقل ثم يعاد 
ely‏ ناتج هذا التمثيل. الشفرة هي إدخال "ملخص" أو "ضغط" o‏ وتسمى أيضًا تمثيل 
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EE isle [o aal AN ada ودع‎ SUL OU c 6558 Ls lst s ad 
الإدخال بأقل تشويه ممكن.‎ 


يتكون المشفر الذاتي من ثلاثة مكونات: المشفر » والشفرة » ومفكك التشفير e‏ على 
التوالي. يقوم المشفر بضغط المدخلات وإنشاء كلمة المرور » ويقوم مفكك التشفير 
بإعادة ely‏ الإدخال Fly‏ على الشفرة (الشكل 1-3). كل من المشفر ووحدة فك التشفير 
عبارة عن شبكات عصبية متجهة إلى الأمام وغالبًا ما يتم تضمينهما بشكل متماثل في 
بُنية المشفر. الشفرة مكون ذو أبعاد Giy‏ لاختيارنا (عدد الخلايا العصبية في طبقة الكود 
هو معامل فائق). 


Les‏ نلقي نظرة فاحصة على هيكل المشفر التلقائي. يتم تمرير الإدخال أولاً من خلال 
مشفر بشبكة عصبية اصطناعية متصلة بالكامل لإنشاء الشفرة. بعد ذلك » يقوم جهاز فك 
التشفير . الذي له هيكل مشابه لجهاز التشفير ومتماثل له . بتوليد الإخراج باستخدام 
جهاز التشفير فقط. الهدف هو الحصول على نفس الناتج مثل المدخلات المعطاة 
للشبكة. يمكن أن تكون مكونات جهاز التشفير وفك التشفير من أي نوع. في أبسط 
أشكالها . يمكن استخدام شبكة عصبية ذات طبقة مخفية واحدة فقط. ومع ذلك o‏ فقد 
ثبت أن الشبكات الأعمق يتم تمثيلها بشكل أفضل من الأنواع الضحلة. بالإضافة إلى 
ذلك dole (pas.‏ استخدام طبقات الالتفاف لمهام معالجة الصور المعروفة باسم 
المشفرات الذاتية الالتفافية. فى أبسط أشكاله c‏ فهو عبارة عن مشفر ذاتى لشبكة من 
ثلاث طبقات. أي شبكة عصبية ld‏ طبقة مخفية تسمى المشفر التلقائى العادي2 أو 
البسيط. أحيانًا يكون أداء المشفر الذاتي هذا أقل من أداء المشفرات الذاتية الأخرى. هناك 
أنواع مختلفة من المشفرات SIU‏ » والتي سنقوم بفحصها في الأقسام ASS‏ 


! Jatent-space representation 
? Vanilla autoencoder 
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المخرجات المدخلات 


E- الشفرة‎ p 
EN `t كي هوم‎ | m 
Lu LN لح‎ AR \ / 
/ \ NS 7 / \ 
are E H - UMS GUN. / H 
\ / \ / \ \ / BM E | 
/ \ \ / / \ 

m À | | K 2 X d Á ir 
= / E \ y NX / / US] \ E 
\ / \ / \ 
= / vm, ١ fw SS / il كا‎ 
/ N ad M / \ 

/ VEZ ^L ل‎ Va / | a 
000 1 7 st Sa N / \ 
P — 7 en ae E 

"t id M 


الشكل 1-3 بنية المشفرات الذاتية 
معاملات المشفرات الذاتية 


عند تدريب المشفر الذاتي e‏ ستواجه العديد من المعاملات التي تؤثر على أداء النموذج 
ويجب ضبطها مسبقًا. ترتبط هذه المعاملات EL‏ (حجم الشفرة وعدد الطبقات) 
ومعاملات التدريب (دالة التكلفة). في هذا القسم c‏ يتم مناقشة هذه المعاملات. 


e‏ حجم الشفرة: عدد العقد في الطبقة الوسطى للمشفر الذاتي. من الأفضل دائمًا أن 
يكون عدد العقد في هذه الطبقة أقل من حجم الإدخال. كلما كان حجم طبقة 
التشفير أصغر . olj‏ ضغطها. Gy‏ لحجم الشفرة » يمكن تصنيف عمليات 
المشفرات الذاتية إلى همجموغتين : مشقرات ذاتية غير مكتملة وكاملة للغاية. 

ote o‏ الطبقات: يمكن تحديد العدد المطلوب من طبقات المشفرات الذاتية وفك 
التشفير على النحو المطلوب. اعتمادًا على عدد الطبقات المخفية . يمكن تقسيم 
المشفرات الذاتية إلى عميقة وضحلة. يمكنك Cal‏ تحديد ade‏ العقد في هذه 
الطبقات. dole‏ مع زيادة عدد الطبقات . يتناقص عدد العقد. 

e‏ دالة الكلفة: يقيم فعالية تدريب الشبكة العصبية. ترجع النتيجة التي تشير إلى أداء 
الشبكة الجيد. في حالة المشفرات الذاتية » فإنه يقيس جودة إعادة البناء. Žale‏ ما 


التعلم العميق: المبادئ والمفاهيم والاساليب 


SN uel الخطا‎ Jana فى‎ SI فن المغفر‎ dette el AUIS llo رن‎ 


الانتروبيا المتقاطعة. 
كيف يعمل المشفر الذاتي؟ 


يتم عرض كل إدخال في المشفر الذاتي مع المتجه 187 x e‏ والأبعاد «n‏ والتي تساوي 
حجم الإدخال. يأخذ المشفر الإدخال ويضعه أولاً في تمثيل مخفي (تشفير) بواسطة 
المشفر c‏ والذي يمكن رؤيته كدالة: 


h = fa(x) = o(xW + b) 


حيث We 18777 9 = (W, b)‏ مصفوفة الوزن؛ DE R”‏ هو متجه التحيز؛ fe X)‏ 
هو المشفر التلقائى و © هو Ila‏ التنشيط. 


يتم إعادة برمجة التمثيل المخفي بواسطة وحدة فك التشفير » والتي تنتج طبقة الإخراج 
X € R”‏ بنفس أبعاد الإدخال ۸. يمكن كتابة هذه العملية كدالة: 


Xx = gg(h) = o(hW + Í) 
هو فك التشفير.‎ ga(h) و‎ 6 = (W, b) حيث‎ 
المشفر الذاتى الانكماشي1‎ 
المشفر الذاتي الانكماشي هو نهج تنظيمي يجبر الشبكة على تعلم التمثيلات المفيدة‎ 
الأقل حساسية (أقوى) للتغييرات الصغيرة في المدخلات (البيانات). يتم تحقيق ذلك‎ 
عن طريق إضافة غرامة إلى دالة الخسارة. هذه الغرامة هي مجموع العناصر التربيعية‎ 


لمصفوفة ياكوبية للمشتقات الثانوية لدالة المشفر الذاتي. 


L (x.a(fG2)) + e) 


! Contractive Autoencoder 


الفصل الثالث: التعلم التمثيلى غير الخاضع للأشراف العميق 


حيث g(h)‏ هو ناتج وحدة فك التشفير « h = f (x)‏ هو خرج المشفر الذاتي» و ECh)‏ 
هو مجموع العناصر التربيعية لمصفوفة ياكوبية على النحو التالي: 


nsa [fe 


2 
F‏ 
حيث ‏ هي معامل فائقة ت تستخدم للتحكم في قوة التنظيم. 


والنتيجة النهائية هى انخفاض حساسية التمثيل المكتسب للمدخلات التعليمية. بمعنى 
آخر » يتم تدريب المشفر الذاتي الانكماشي على تحمل اضطراب المدخلات. 


المشفر الذاتي لإزالة الضوضاء' 


في المشفر الذاتي لإزالة الضوضاء بدلاً من إضافة غرامة إلى دالة الخسارة » يمكن 
الحصول على المشفر الذاتي لتعلم أشياء مفيدة عن طريق تغيير Led‏ إعادة ely‏ دالة 
الخسارة. يمكن القيام بذلك عن طريق إضافة بعض الضوضاء إلى طبقة الإدخال عن 
قصد. عن طريق إدخال قيم الضوضاء هذه . يقوم المشفر الذاتي لإزالة الضوضاء بإنشاء 
نسخة صاخبة من الإدخال. يساعد هذا في منع النسخ الوارد والصادر دون تعلم ميزات 
البيانات بواسطة المشفر الذاتي وإجبار الشبكة على تعلم أقوى الميزات. 


الإدخال في هذه الشبكة هو الإصدار التالف (الصاخب) X ER"‏ للمدخل الأصلي 
eR"‏ ×. لا يقوم هذا المشفر الذاتي بنسخ المدخلات إلى المخرجات فحسب . بل 
يمسح البيانات من الضوضاء ثم يُنشئ الإدخال من الإصدار التالف (الشكل 2-3). 


1 Denoising autoencoder 


التعلم العميق: المبادئ والمفاهيم والاساليب 


ees 


h= f(x) 


Ee 


إعادة البناء المدخلات التالفة المدخللات الخام 


HN x‏ جد 


الشكل 2-3 بنية المشفر الذاتي لازالة الضوضاء 
تعمل دالة الخسارة على تقليل الخطأ عند الإدخال التالف » وليس عند الإدخال الرئيسىء 
و كما يي ۰ 
L(x,9(f@))‏ 
حيث g(f (X)‏ هو خرج وحدة فك التشفير f (X) e‏ هو الإخراج المشفر للمدخل. 
المشفر الذاتي غير الكامل! 


تتمثل إحدى طرق تعلم التمثيلات المفيدة باستخدام المشفرات التلقائية في تحديد 
حم papell sa «Medea LÀ s all patel pits‏ إلى ial‏ راح الات 
البارزة من البيانات. المشفرات الذاتية غير الكاملة لها حجم شفرة أصغر من حجم 
الإدخال. يساعد هذا في الحصول على السمات الهامة والبارزة للبيانات. تم تصميم هذه 
المشفرات الذاتية لتمثيل ميزات البيانات المفيدة وتقليل الابعاد. يتم وصف عملية التعلم 
ا عوط Ds‏ وال ee esl‏ 


1 Undercomplete Autoencoder 


الفصل الثالث: التعلم التمثيلى غير الخاضع للأشراف العميق 


L(x, g(f G2) 
المشفر الذاتي المبعثر'‎ 


على عكس المشفرات الذاتية غير الكاملة » والتى تكون أصغر من أبعاد الإدخال « Bole‏ 
ما تكون المشفرات الذاتية المبعثرة Ka‏ مكتملة للغاية. ومع ذلك . لا يزال بإمكانهم اكتشاف 
الميزات المهمة من البيانات. 


تسمح بُنية المشفر الذاتي المبعثر بمزيد من الوحدات المخفية في طبقة التشفير. 
لكن هذا يتطلب أنه بالنسبة لمدخل معين » لكل خلية عصبية مخفية . يجب أن تكون 
قيمة دالة التنشيط المتوسطة قريبة من الصفر (إذا تم استخدام دالة التنشيط سيكمويد أو 
كانت القيمة 1- عند استخدام ls‏ التنشيط تانتش). إذا كان الناتج قريبًا من 1 تعتبر 
الخلية العصبية نشطة وغير نشطة. الآن c‏ السؤال الذي يطرح نفسه. ما هو الغرض من 
وجود وحدات مخفية تزيد عن الصفر؟ الفكرة هي تنشيط الخلايا العصبية لجزء صغير 
فقط من عينات التدريب. oY is‏ العينات لها خصائص مختلفة » يجب ألا يكون 
التنشيط العصبي هو نفسه لجميع الخلايا العصبية ويجب تنسيقه. الهدف هو إظهار 
العناصر المخفية مع العديد من الأصفار وعدد قليل من العناصر غير الصفرية إلى أبرز 
iN adi‏ 


تتم عملية التدريب في هذا التشفير عن طريق إضافة غرامة إلى دالة الخسارة في طبقة 
الشفرة: 


L (x.a(f G2) + e) 


حيث g(h)‏ هو خرج وحدة فك التشفير « h = f(x)‏ هو خرج المشفر و Elh)‏ هي 
عقوبة التبعثر مع دالة لوغاريتمية على النحو التالي: 


1 Sparse autoencoder 


التعلم العميق: المبادئ والمفاهيم والاساليب 


e(h) = > KLEI) 
ja 


حيث p‏ هي oles‏ الانتثار وعادة ما تكون قيمة صغيرة قريبة من الصفر « Dj‏ هي متوسط 
التنشيط للوحدة الكامنة j‏ التى تكون Uo‏ م . 5 هو عدد الخلايا imal‏ فى الطبقة 
الكامنة « KL‏ هو تباعد SUS‏ - ليبلير بين متغير عشوائي برنولي بمتوسط D‏ ومتغير 
عشوائي برنولي بمتوسط P‏ 


p 
1= f, 


, p 
KL(p||p;) = plog y + )1 - 9 
J 


الما لمشفر الذاتي الالتفافي 


المشفر الذاتي الالتفافي هو نوع من شبكات العصبية الالتفافية المستخدمة كأداة متقدمة 
في التعلم غير الخاضع للإشراف لفلاتر الالتفاف. يعمل المشفر الذاتي الالتفافي من 
منظور آخر لتحديد الفلتر ؛ بدلاً من الفلاتر المترابطة المصممة Gyt‏ نترك النموذج 
يتعرف على الفلاتر المثلى التى تقلل من أخطاء إعادة البناء. بمجرد التعرف على هذه 
الفلاترء يمكن تطبيقها على أي إدخال سوك الميزات. لذلك e‏ يمكن استخدام هذه 
الميزات للقيام cb‏ شيء يتطلب Ua e‏ مضغوطا للإدخال » مثل التصنيف. 


تستخدم هذه الأنواع من الشبكات بشكل عام في إعادة ely‏ الصورة لتقليل خطأ إعادة 
البناء من خلال تعلم الفلاتر المثلى. يتعلم المشفر الذاتي الالتفافي تشفير المدخلات في 
مجموعة من الإشارات البسيطة ثم فك تشفير المدخلات منها. في هذا النوع من 
التشفير باسم طبقة فك الالتفاف1. 


1 deconvolution 


الفصل الثالث: التعلم التمثيلى غير الخاضع للأشراف العميق 


النماذج المميزة والانتاجية 


يتمثل أحد أهداف التعلم الآليفي تطوير خوارزميات إحصائية تستخدم الملاحظات 
السابقة لعمل استنتاجات حول حالة البيانات المستقبلية.في العديد من التطبيقات» مثل 
التصنيف أو الانحدار. AS‏ وصف شكل المتغير الموضوعي y‏ كدالة لمتغير التوقع ×. 
بالنظر إلى وجود مجموعة بيانات D‏ فإن الهدف هو تحديد المعاملات 6 . بحيث 
تستنتج pe (rx)‏ بشكل صحيح قيمة y‏ لبيانات اختبار معينةء x"‏ = ×. هذا الاحتمال 
الشرطي Da (y|x)‏ هو نموذج مميز او قابل للفصل. 


في المقابل c‏ يُظهر النموذج الإنتاجي او المولد التوزيع الشائع المحتمل ل Dey, x)‏ 
على جميع المتغيرات. ميزة هذا هو أنه يمكننا استخدام النماذج المولدة لإنتاج عينات 
مماثلة لتلك المعدة من التوزيع الفعلي. هذه القدرة على أخذ العينات مفيدة للغاية لزيادة 


النماذج الإنتاجية؟ والقابلة للفصل2 هما نهجان مختلفان تمت دراستهما على نطاق 
واسعفي مشاكل التصنيف واختيار مسار مختلف GLS‏ لتحقيق النتيجة النهائية. عمل 
النماذج القابلة للفصل أسهل من عمل النماذج الإنتاجية؛ لأنه إذا تم عرض البيانات ذات 
الفئات المختلفة عليهاء فيجب أن تكون قادرة على التمييز بينهاء وإذا كانت هناك بيانات 
مناسبةء فهذا النهج أكثر شيوعًا وأكثر كفاءة.في المقابلء تواجه النماذج الإنتاجية مهمة 
أكثر صعوبة» حيث يتعين عليها الحصول على توزيع البيانات وفهمه ثم تصنيفه. Ad‏ 
نظرًا لأن هذه النماذج تعلمت كيفية توزيع البيانات» فلديها القدرة على إنشاء بيانات 
مشابهة للبيانات التعليمية. كمثال على هاتين الطريقتين» افترض أن المتغير العشوائي X‏ 
عبارة عن صورة و y‏ تسمية تصف محتوى الصورة. لا يمكن استخدام النموذج القابل 
للفصل po (YIX)‏ إلا لاستنتاج تسمية صورة جديدة.في المقابلء يمكن استخدام النموذج 
الانتاجي EY‏ العينات لإنتاج عينات مماثلة للصورة التي تحتوي على علامة -y‏ يمكن 
أن ينتج النموذج الانتاجي عينات مماثلة عن طريق أخذ الاحتمال المشترك لبيانات 
الإدخال والمسمى Dg, x)‏ وقت واحد. على سبيل المثال» من خلال اعتبار الصور 


1 Generative 
? Discriminative 


التعلم العميق: المبادئ والمفاهيم والاساليب 


على أنها بيانات إدخال. يكون لكل عينة (صورة) آلاف الأبعاد (بكسل) « ويكون منتج 
النموذج المولد هو الحصول على التبعيات بين وحدات البكسل. 


يمكن تعريف النماذج الإنتاجية على أنها فئة من النماذج التي تهدف إلى تعلم كيفية 
إنشاء عينات جديدة يبدو أنها من نفس مجموعة بيانات التدريب. أثناء مرحلة التدريب» 
يحاول نموذج إنتاجي حل مشكلة تقدير الكثافة.في تقدير GES‏ يتعلم النموذج إجراء 
تقدير أقرب ما يمكن إلى دالة كثافة الاحتمال غير المرئي. النقطة المهمة هي أن نموذج 
التوليد يجب أن يكون قادرًا على تكوين حالات جديدة للتوزيع» وليس مجرد نسخ 
الموجودة. 


يجب أن تكتشف النماذج المولدة وتتعلم التوزيعات والخصائص الأساسية للبيانات 
لإعادة بناء أو إنتاج عينات مماثلة بكفاءة. يمكننا التفكيرفي النماذج الإنتاجية كآلة يمكنها 
النظر إلى أي ce gd‏ مثل السيارة» ومن خلال فحص عدد كبير من طرازات السيارات « 
يتعلم النموذج أخيرًا خطة إنتاج لكيفية بناء أنواع السيارات الجديدة بمجموعة متنوعة من 
الألوان والأشكال والارتفاعات وعدد الأبواب والمزيد. 


إذا كان النموذج قادرًا Ge‏ على إنتاج عينات جديدة تتبع ظهور كائناتني العالم 
الحقيقي» فيمكنفي الواقع القول إنه تعلم وفهم مفهومًا بدون تدريب. UA‏ تندرج هذه 
المجموعة من النماذجفي x3‏ النماذج غير الخاضعة للإشراف (يمكن أيضًا تضمين 
النماذج الإنتاجيةني فئة نماذج الخاضة للاشراف الذاتية). 


أنواع النماذج الانتاجية 


يتم تصنيف النماذج التوليد على أنها نهج غير خاضع للإشراف. وبشكل عام نموذج 
التوليد هو نموذج قادر على تعلم تقدير pa (X).‏ من هذا التوزيع من خلال النظرفي عدد 
من العينات التعليمية التي تم إعدادها من توزيع p(x)‏ هناك طرق تقدير مختلفة تعتمد 
على نماذج التوليد. ومع AUS‏ بافتراض استخدام أقصى احتمالية للتقدير» يمكن تقسيم 
النماذج الإنتاجية على نطاق واسع إلى فتتين: النماذج الضمنية والصريحة. 


الفصل الثالث: التعلم التمثيلى غير الخاضع للأشراف العميق 


تقدير الاحتمالية القصوى 
تستخدم إحدى الطرق المناسبة لتدريب نموذج إنتاجي على مجموعة بيانات تعليمية 
X = OH",‏ وإيجاد معاملات مناسبة لتوزيع النموذج (×)وم تقدير احتمالية 
Vr‏ تكمن الفكرة وراء هذه الطريقةفي نمذجة تقريب توریع البيانات السابق من 
خلال بعض المعاملات pg (x)‏ :8 ثم تحديد المعاملات التي تزيد الاحتمال إلى أقصى 


A> 


بعبارة أخرى » يحدد الحد الأقصى لتقدير الاحتمالية المعامل الامثل *6 والتى G3,‏ 
لها يكون الاحتمال مرتفعًا قدر الإمكان لكل نقطة فى بيانات X‏ 


n 
0* = argymax | | pe (x) 
i=1 


من الناحية العملية » من أجل بساطة العمليات الحسابية والاستقرار العددي . من 
الأفضل استخدام قيمة log po (X)‏ بدلاً من log po (x)‏ 


n 
0* = arggmax Y log pa (x) 


i=1 
النماذج الضمنية‎ 
ولا تقدر كثافات‎ pol) لا توفر نماذج المولدات الضمنية أداة لتحقيق توزيع‎ 
إنشاء عينات مباشرة (بيانات).في هذه‎ LAS الاحتمال» ولكن بدلاً من ذلك تتعلم‎ 
الطريقةء يتم إجراء مقارنة بين البيانات الحقيقية وعينات الإنتاج. ومن أشهر هذه‎ 
النماذج شبكات الخصومة المولدة.‎ 


1 Maximum Likelihood Estimation 


التعلم العميق: المبادئ والمفاهيم والاساليب 


النماذج الصريحة 


باستخدام نماذج صريحة؛ يمكن الحصول على توزيع (X)‏ وص من إطار النموذج. هناك 
على التدفق2. والنماذج المتغيرة الكامنة SX JU VI‏ 


نماذج الانحدار الذاتي: باستخدام نماذج من قانون سلسلة الاحتمالات . تشترط 
هذه النماذج إخراجها على البيانات التي لوحظت في ell‏ وليس على 
البيانات المستقبلية. على سبيل المثال c‏ يعتمد كل بكسل جديد فى الصورة على 
وحدات البكسل التي تم عرضها مسبقاً. 
النماذج القائمة على التدفق: يتم إنشاء النموذج القائم على التدفق كسلسلة من 
التحويلات العكسية* تسمى تدفق المجانسةة e‏ والتي تسمح باستبدال المتغيرات 
بشكل متكرر Gaby‏ لنظرية التغيير المتغير. نتيجة HUY‏ تتعلم النماذج القائمة 
عل التدقق بالضبط التوزيع الفعلي للبيانات وتجعل تقدير الاحتمال الدقيق 
النماذج المتغيرة الكامئة الاحتمالية: تشكل هذه النماذج مجموعة واسعة من 
النماذج الصريحة وتستخدم المتغيرات المساعدة للتوزيعات المعقدة التي هي 
جوانب أكثر واقعية للعالم. نموذج المتغير الكامن هو نموذج اتجاهي رسومي 
(الشكل 1-6( لمتغيرات x‏ المحتملة التي تحتوي على المتغيرات الكامنة Z‏ 
يسمح لنا إدراج المتغيرات الكامنة بالحصول على التبعيات المخفية بين 
المتغيرات المرصودة ومعرفة البنية الأساسية لآلية توليد البيانات » والأهم من 
ذلك » يمكن أن توفر المتخيرات: الكامنة Weed‏ أصغر وأصغر للمتغيرات 
المرصودة. ومن ثم » فإن هذه النماذج تفعل التعلم التمثيلي. يعتمد هذا النموذج 
على افتراض أن متغير الملاحظة × يتم إنشاؤه بواسطة عملية عشوائية تعتمد على 
متغير مستمر غير مرصود. بمعنى آخرء يتم إنشاء 2 الكامنة في البداية من التوزيع 
السابق -p CZ)‏ بعد ذلك » يتم إنشاء x‏ من التوزيع الشرطي PXI)‏ يمكن تفسير 
autoregressive‏ 1 
low-based models‏ 2 
probabilistic latent variable models‏ 3 


^ invertible transformations 
5 Normalizing Flows 


الفصل الثالث: التعلم التمثيلى غير الخاضع للأشراف العميق 


المتغير Z‏ غير المرصود على أنه تمثيل كامن. بشكل عام . هذه النماذج لها غرض 
مزدوج: نمذجة التوزيع الشائع «peo z)‏ واستنتاج توزيع (×|2) وم لتعلم 
التمثيل. النماذج المتغيرة الكامنة لديها القدرة على الكشف التلقائي عن مبادئ 
عملية الإنتاج وتقديم تمثيلات خفية قابلة للتفسير. المشفر التلقائي المتغير هو 
مثال على نموذج متغير كامن محتمل. 


vá v. 
plz) wl») 
xr 


الشكل 3-3 مخطط لنموذج متغير كامن محتمل 


نظرية تغيير المتغيرات 

Gy‏ لمتغير مرصود ٠ × € X‏ توزيع احتمالي بسيط ons‏ رم على متغير كامن 2 6 2 » وتعيين واحد تلو الآخر 
2 د كز بر (ga f e‏ معادلة تغيير المتغير » تحدد توزيع النموذج على X‏ على النحو التالي: 

af (x 2) 


px GO) = pz (f G2) lae (75 


of e» 


log (px GO) = log (pz (f) + log (aer (5‏ 
حيث لل يكون f‏ على x‏ باستخدام قانون أخذ العينات العكسي » يمكن إنشاء عينات دقيقة للتوزيع الذي تم الحصول عليه. 
مثال zo p,‏ مرسوم في الفضاء الكامن وصورته العكسية x = /-1)2( = g(Z)‏ تنشئ مثالاً في المساحة الأصلية. 


النموذج المولد العميق 


أصبح التعلم العميق قادرًا الآن على إنشاء بيانات جديدة بعد التعلم من بيانات الإدخال 
غير المسماة. ومن ثم o‏ فقد أصبح "ذكاءً مبدعً". على سبيل المثال » يمكن لشبكات 
الخصومة التوليدية e‏ والتي تعد أكثر نماذج التوليد العميق شيوعًا اليوم » إنتاج صور عالية 


التعلم العميق: المبادئ والمفاهيم والاساليب 


الجودة « وتحسين جودة الصورة » وتحويل الصورة إلى نص ٠‏ وتغيير مظهر صورة الوجه 
مع تقدم العمر » وفي الأمن السيبراني لمحاكاة الهجوم . والمساعدة في الطب في 
تشخيص السرطان من خلال إنشاء فحوصات واقعية جديدة » واستخدامه فى مجموعة 
واسعة من الامكانيات الأخرى التى لا نهاية لها. 


من الجدير بالذكر أنه نظرًا لأن الشبكات الخصومة التوليدية لديها القدرة على إنشاء 
بيانات جديدة » فقد يكون هذا أمرًا خطيرًا في بعض الأحيان. على سبيل المثال » يمكن 
أن تخلق صورًا مزيفة قد تبدو حقيقية » ويمكن أن يكون لهذه الحقيقة عواقب أخلاقية 
واجتماعية وسياسية خطيرة بين البلدان » ويرجع ذلك أساسًا إلى الخبرة المحدودة 
للسياسيين بالذكاء الاصطناعي. بالإضافة إلى ذلك e‏ إذا تم إرسالها إلى خوادم مضيفة 
باستخدام مفتاح خاص مشفر e‏ فيمكن تدريبها على اكتشاف كلمات مرور المستخدم. 
يمكن استخدام الهاش كضوضاء تغذي المولد . ومع الوقت الكافي . ستتمكن الشبكة 
من اكتشاف كلمة مرور المستخدم. 


على الرغم من المخاطر التي يمكن أن تنجم عن الاستخدام غير الأخلاقي وغير 
المسؤول لشبكات الخصومة التوليدية» فهي تقنية جديدة مبتكرة للغاية تعزز العديد من 
العمليات الآلية اليومية التي تحدثفي مجتمعنا حتى نتمكن من التركيز على مسائل 
الآخرين. 


لا تزال القدرة على تعلم تمثيلات مفيدة للبيانات دون توجيه بشري تمثل تحديًا Des‏ 
للتقدم البحثيني الذكاء الاصطناعي. التقدمني إنشاء الخوارزميات له أهمية كبيرة. OY‏ 
البشر لا يتصرفون GLS‏ مثل النماذج القابلة للفصل ولديهم قدرات إنتاج خيالية عالية 
جد على تسيل المقال )13 Lod‏ ميزات fre dioe Xeno‏ سيارة 55« على الطريق: 
للإنسان» فيمكنه على الفور إنشاء صورة لهاني ذهنه. يسعى الذكاء الاصطناعي إلى توفير 
نفس النوع من الذكاء للآلات. أدى استخدام تقنيات التعلم العميق إلى تطورات كبيرةفي 
إنتاج النماذج الإنتاجية على مدى السنوات العديدة الماضية. 


تندرج النماذج الإنتاجيةني فئة الأساليب غير الخاضعة للإشراف لأنها تحاول معرفة 
توزيع بيانات مجموعة البيانات التعليمية. كانت النماذج الإنتاجيةفي طليعة التعلم العميق 
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غير الخاضع للإشراف على مدار العقد الماضي. هذا لأنها توفر طريقة فعالة للغاية لتحليل 
وفهم البيانات غير المصنفة. 


باختصار» الفكرة وراء النماذج الانتاجية هي التقاط التوزيع الاحتمالي الداخلي لفئة 
البيانات من أجل توليد بيانات مشابهة لها. نظرًا OY‏ نماذج توليد التوزيع المشترك غالبًا 
ما تظهر المتغيرات المرصودة GIS‏ فإن الاستدلال على معاملات النموذج 
والمتغيرات الكامنة يمكن أن يكون مشكلة أو حتى غير قابل للحل (خاصةفي مساحات 
الإدخال عالية الأبعاد مثل الصور» وتصميم مساحة مميزة للقدرة الكافية لشرح البيانات 
الموجودة). للتغلب على هذه المشكلةء تم استخدام نماذج التوليد العميق بنجاح. 


cele JS‏ يتم تدريب نماذج التوليد العميق بمساعدة oLa‏ الانتشار الخلفى 
لمعرفة التوزيع المحتمل الأقرب قدر الإمكان لتوزيع الإنتاج. تتمثل الطريقة الشائعةفي 
أخذ عينة من متغير الضوضاء من توزيع بسيطء مثل التوزيع العادي القياسي» وتحويل 
هذه العينة إلى عينة من توزيع توليد البيانات باستخدام هياكل الشبكة العصبية. 


يمكن تقسيم نماذج التوليد العميق إلى ثلاث فئات رئيسية: 

1. النماذج القائمة على دالة الكلفة مثل المشفر التلقائي وشبكة الخصومة التوليدية. 

2. النماذج القائمة على الطاقة التي يتم فيها تعريف الاحتمال المشترك باستخدام دالة 
الطاقة. تندرج أنواع مختلفة من آلات بولتزمان وشبكات الطاقة العميقة في هذه 
الفئة. 

3. النماذج القائمة على التدفق التي يتم إجراؤها بواسطة التحولات المعكوسة. تعد 
النماذج القائمة على تيار التعادل وتيار التردد الذاتي أمثلة على هذه النماذج 
الإنتاجية. 


المشفر JA LUI‏ المتغي 


تستخدم المشفرات الذاتية عمومًا بشكل أساسيفي تقليل الأبعاد والتعلم التمثيلي. ومع 
ذلك أدت الروابط النظرية بين النماذج المتغيرة الكامنة إلى إنشاء مشفر ذاتي متغير يمكن 
استخدامه كنموذج إنتاجي. يعد المشفر التلقائي المتغير مثالاً على نموذج متغير كامن 
عميق يستخدم الشبكات العصبية لتقريب المتغيرات اللاحقة وإنشاء عينات بيانات. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


المشفر الذاتي المتغير هو نموذج توليد احتمالي يتم فيه نمذجة كثافة الاحتمال p (x)‏ 
بواسطة متغير كامن LZ‏ هدفنا هو نمذجة p (X)‏ بحيث يتم إنشاء عينة مقنعة من مجموعة 
البيانات الخاصة بنا غير الموجودةفي مجموعة البيانات من خلال أخذ عينات التوزيع (إنه 
قادر على إنشاء عينات بيانات جديدة تشبه عينات البيانات التي شاهدها النموذج أثناء 
عملية التدريب). 


سيناريو مسألة 


لفهم المشفر الذاتي للمتغير بشكل أفضلء نحدد سيناريو واضحًا للمسئلة. افترض أن 
مجموعة البيانات X = (x ۳, x, na, eM}‏ تتكون من ۸ عينات لبعض المتغيرات 
المستمرة أو المنفصلة × والبيانات ببعض العمليات يتم إنشاء العشوائيات التي تحتوي 
على متغير عشوائي .في هذه العمليةء يتم إنشاء قيمة كامنة ل ZO‏ من بعض التوزيعات 
السابقة pgs (Z)‏ بعد ذلك يتم إنشاء × من بعض التوزيعات الشرطية pe: Qx|z)‏ .في 
هذا السيناريوء نفترض أن pg-(z)‏ وكذلك الاحتمال SE pe(x|z)‏ من عائلات 
التوزيع البارامترية pe(Z)‏ و pa(x|z)‏ « على التواليء والدوال يمكن تغيير كثافاتهم 
الكامنة ل ZO‏ غير معروفة لنا. 


لوصف توزيع البيانات الأصلية وعلاقتها بالمتغيرات ES‏ نهتم باستخدام 
احتمالية الحدود pe(x(?) = f po(x|z)po(z)dz‏ لدينا BES Cal‏ السابقة 
الحقيقية ©2204 = (اج)وم. هذا التكامل وكذلك BEN‏ السابقة غير قابلة 
للحل بالنسبة لدالة الاحتمال pg(x|z)‏ المعبر عنها بواسطة شبكة عصبية ذات طبقة غير 
خطية مخفية. لذلك . نحن مهتمون بالتقريب الفعال لهذه التوزيعات. للقيام «Bo‏ 
نقدم نموذج (×|2) do‏ وهو تقريب غير قابل للحل تقريبًا للسابق الفعلي -Po (z|x)‏ 
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GU‏ المشفر الذاتي المتغير 


المشفر التلقائي المتغير هو نهج محتمل لوصف عينات بيانات x‏ في مساحة 7 الكامنة. 
«Jl‏ يتم وصف كل متغير موجودفي الرمز الكامن 2 من خلال توزيع الاحتمالات.في 
المشفر الذاتي المتغير يمكننا أن نرى المتغيرات الكامنة 2 كرمز للتشفير الذاتي. يمكن 
اعتبار (z|x)‏ م٩‏ مشفر ذاتي محتمل؛ بإعطاء بيانات × c‏ يتم إنشاء توزيع بالقيم الممكنة 
للرمز Z‏ الذي يمكن من خلاله إنشاء x‏ وبالمثل. يمكن اعتبار pe(x|z)‏ بمثابة مفكك 
تشفير محتمل. by‏ للرمز 2 e‏ يتم إنشاء توزيع بالقيم المقابلة ل ×. odes‏ الإشارة إلى 
أن المشفرفي هذه الحالة لا ينتج فعليًا قيمة الرمز 2. بل هو توزيع لهذه القيم. أثناء عمل 
المشفر الذاتي » يمكننا أخذ عينة من قيمة Z‏ من هذا التوزيع وإدخال وحدة فك التشفير. 


يمكن عرض بنية نموذج المشفر الذاتي المتغير في الشكل 5-3. يمكن أن تكون 
شبكة التشفير وفك التشفير بشكل عام أي نوع من الشبكات العصبية. ومع ذلك « فإن 
الاختيار الشائع هو استخدام بيرسييترون متعدد الطبقات. 


mom 


الشكل 5-3 بنية المشفر الذاتي المتغير 


إذا تم تقريب توزيع التوحيد الغاوسي متعدد المتغيرات NCO, D)‏ مثل السابق Dor (Z)‏ 
واللاحق qox)‏ من خلال توزيع التوحيد الغاوسي متعدد المتغيرات 
N), 019)0((‏ مع المعاملات ( و (Oy, Og)‏ = © »عن طريق فتح وحدة فك 
التشفيرفي عملية أخذ العينات العشوائية» يمكن رؤية المزيد من التفاصيل حول بنية هذا 
المشفر الذاتي في الشكل 6-3. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


يتلقى المشفر التلقائي المتغير بيانات × كمدخلات ويحولها إلى المعاملات /م و 
logo‏ عبر شبكة عصبية» وهو تقريب ل )9( GUY go z|x‏ هذه Il‏ = م 
)1,0( من أجل السهولة والدقة العددية» نتعلم قيمة السجل 0 بدلاً من 6 log‏ بعد 
US‏ يتم del‏ عينات من القيمة الكامنة ل 2 من التوزيع ((019)06 GAT LN Qu,‏ يتم 
ely dole}‏ هذا 2 (تحويله) إلى £ من إدخال ‏ من خلال وحدة فك ترميز. تمثل إعادة 
ely‏ هذه القيمة المتوسطة للتوزيع (2|×) «pe‏ والذي نستخدمه لتقييم خطأ إعادة البناء. 


المدخلات 
5 — في الوضع المثالي .--------------ه المدخلات 
المعاد بناؤها من Xx‏ 
التشفير المحتمل 


الانحراف المعياري 


الشكل 6-3 بنية المشفر الذاتي المتغير مع عملية تشفير دقيقة 
تدريب المشفر الذاتي المتغ ىر 


يمكن تحديد العلاقة بين بيانات الإدخال ‏ ومتجه التشفير الكامن 2 بشكل كامل من 
خلال الاحتمالات التالية: 


p(z) e‏ السابق. 
o‏ احتمالية tpe(x|z)‏ الذي يتم تعريفه بواسطة وحدة فك الترميز. 
e‏ (×|2) م4 اللاحق؛ Gilly‏ يتم تعريفه بواسطة المشفر الذاتي. 


حيث © هي مجموعة المعاملات التي تنتمي إلى دالة المشفر الذاتي و 6 هي معاملات 
دالة مفكك التشفير. 
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بمعرفة التعريفات المذكورة cel‏ يمكننا رسم مخطط ممكن كما هو de»‏ 
الشكل 7-3. 


> 


ce 
الشكل 7-3 مخطط المشفر الذاتي المتغير (استنتاج + إنتاج)‎ 


بافتراض أن *6 هي المعاملات الحقيقية لهذا التوزيع» يمكننا تنفيذ الخطوتين التاليتين 
لإنشاء عينات بيانات جديدة تبدو مشابهة لنقطة بيانات XO‏ 
1. أخذ عينات من متجه المتغيرات الكامنة ZO‏ من خلال التوزيع اللاحق 
-De* (Z)‏ 
2. استخدم وحدة فك التشفير كشبكة توليد واعادة ely‏ المتجه الكامن للعينة 
باستخدام دالة الاحتمال الشرطي e Dor (x|z = z®)‏ بإنشاء قيمة XO‏ 


المعاملات المثلى *6 هي المعامل التي تزيد من احتمالية إعادة البناء GV‏ نقطة XO‏ 
ومن هنا هدفنا هو ذلك: 


n 
0* = arggmax | | pe (x (P) 
i-i 


كما ذكرنا Gila‏ . لتبسيط العمليات الحسابية والاستقرار العددي » يمكننا إعادة كتابتها 
على النحو التالى: 


التعلم العميق: المبادئ والمفاهيم والاساليب 


n 
0* = arggmax Y log pg (x) 
i=1 
يجب علينا‎ «pa(z|x) إذا أردنا حساب التوزيع اللاحق الحقيقي للفضاء الكامن‎ 
لنظرية بايز:‎ Giy وم‎ (x) تحديد‎ 


pe(x|z)pe(Z) 


pe(zlx) = pex) 


الآن Ue»‏ نحدث المعادلة لتوضيح عملية توليد البيانات بشكل أفضل وإشراك متجه 
المشفر الذاتي: 


pox) = | po(xlz)pole)dz 


من الواضح أن هذه ليست طريقة جيدة. oY‏ حساب الأخير p(x)‏ لكل عينة 
بيانات × مكلف. وبالتالي» للحد من مساحة البحث الأسرع» يستخدم المشفر الذاتي 
المتغير الاستدلال التقريبي للتوزيع غير القابل Gilly MoU‏ يتم تمثيله بواسطة دالة 
التشفير عبر qo Ix)‏ 


نظرًا qu (z|x) OY‏ هو التقدير اللاحق الحقيقي الوحيد الذي لا يمكن حله. يجب 
علينا التمييز بين الاحتمالين. بمعنى آخر» يجب أن يكون G3 qu(ZIx)‏ جدا من 
pe(z|x)‏ الحقيقي x)‏ | 2). لتحديد المسافة بين هذين التوزيعين» يمكن قياس الفرق 
بمساعدة تباعد كولباك ‏ ليبلير. 


x ell العو‎ e ed — SLI S ael due lam ply neni dd ac 


iu] 25 


De = (qo Ix) Il pe(z|x)) 2 | aio log G 


t intractable 
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ومع متباينة ينسن c‏ يكون تباعد كولباك - ليبلير دائمًا غير سلبي 0 < Dia (pllq)‏ . 
ومن ثم يمكننا تحديد مدى اختلاف السابق التقريبي qq Ix)‏ عن الحقيقي De Z|x)‏ . 


الآن « من خلال تحليل معادلة تباعد كولباك - ليبلير التي تم الحصول عليها أعلاه. 
نحصل على دالة الهدف . أو دالة التكلفة . للمشفرات الذاتية المتغيرة. 


n] TA 


Dy, = (ap b) livor) = | aoo tog fan 


B qo Z|x)pe (x) E _ p(nx), 
= | aso log ae dz "\3:p(z|x) = »00 


do 2) P 


= Í qe Ix) (log po (x) + log E x) 


qo Ix) 
pe(z x) 


= log pe(x) + [ a etotog( ) ae " :زیر‎ | ation EXE 


qo Glx) 


umm dz "\ 23: p(z, x) = p(z|x)p(z)" 


= log pe(x) + f q (zlx)log ( 


qq Elx) 
Do(Z) 


= log pe(x) + Ez~qgczixy [log ( — logpe(x|z)] 


= log pe(x) + Dez (ao (zlx) ll pe(2)) — Ez.4 zio [logpe (xlz)] 
الآن لدينا المعادلة أعلاه:‎ 
log pa (x) - ىرط‎ (ag EIX) ((2)وط‎ = 
E,~qy(zix)llogpe (x1z)] — Dia (qo GIx)ll po (2)) = -ELBO 


الجانب الأيسر من المعادلة هو بالضبط ما نريد تعظيمه عند تعلم التوزيعات 
الحقيقية. في الواقع › نريد تعظيم احتمال توليد بيانات حقيقية والتي في الجزء الأول 
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من المعادلة هي tlog pa(x)‏ وأيضًا تقليل الاختلاف بين التوزيع التقريبي والتوزيع 
المقدر (الجزء الثاني من المعادلة). 


بالنظر إلى أن العديد من خوارزميات التحسين. مثل الانحدار الاشتقاقى» تعمل عن 
يق تقليل دالة الهدف. ستكون دالة الهدف النهائية لمتغير المشفر الذاتى على النحو 
التالى: 


(9,0,x,z) = - 0 


خودرمزنكار متغير' 
E; zio llogpeGdlz)] — Dk, (ao GIx)1l pa G2)‏ = 


ELBO‏ هو مصطلح محدد للطرق المتغيرة بايزي. تعرف llo‏ الخسارة هذه بالحد الأدنى 
للمتغير أو الحد الأدنى للملاحظات. ينبع الحد الأدنى في هذه التسمية في الواقع من 
حقيقة أن تباعد كولباك ‏ ليبلير دائمًا ما يكون غير سلبي. لذلك e‏ فإن دالة هدف المشفر 
الذاتي المتغير تكون دائمًا أصغر من :logpa(x|z)‏ 


log Do (x) En Dy; (ao (zx) II Do(Z)) = La المشفرالذاتي‎ = —ELBO € logpe (x) 


يمكن OW‏ ملاحظة أننا نقوم بالتحسين عن طريق تقليل لوغاريتم الاحتمال السلبي. 
وهو الجزء الأول من المعادلة السابقة. UU‏ من خلال تقليل دالة الخسارة 
المشفرالذاتي Ls‏ إلى الحد «o‏ نقوم بتعظيم احتمال إنشاء عينات بيانات حقيقية 
باستخدام الانحدار الاشتقاقي واسترداد أفضل المعاملات: 

: اذك * 
المشفرالذاتى اا . argo, minL‏ = "0,9 
كما يمكن رؤيته . من خلال تقليل المشفرالذاتي الت“ نقوم في نفس الوقت بتعظيم 
ELBO‏ الذي نتصرف به Uus‏ يتناسب مع احتمالية حدوثه 2 وبالتالى زيادة احتمالية إعادة 
البناء. 
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خدعة إعادة بناء المعاملات1 


في المشفر الذاتي المتغير e‏ يقوم مفكك الشفرة بأخذ عينات عشوائية من السابق الحقيقي 
qe (zx)‏ ~2. يمكن أن يؤدي هذا إلى مشاكل عند تدريب النموذج باستخدام التدرج 
الاشتقاقي العشوائي. OY‏ الاشتقاق غير ممكن بسبب معاملات المتغير . بمعنى آخر. 
لا يمكن نشر التدرجات للخلف من خلال المتغير الكامن iz‏ تنشأ هذه المشكلة OV‏ 
الانتشار الخلفي لا يمكن أن يتدفق عبر العقد العشوائية ويتوقع الانتشار الخلفي قيمًا 
محددة لتحديد هذه المعاملات. يمكن رؤية هذه المشكلة في الشكل 8-3. للتغلب على 
هذه المشكلة . تم استخدام خدعة ely dale]‏ المعاملات. 


تتضمن الحيلة أخذ عينات من متغير عشوائي مساعد من توزيع ثابت (0,1) ٨‏ 
معادل. بمعنى آخر . يمكننا معاملتها كمدخلات من خلال تحديد المتغيرات العشواتية 
المساعدة UN (0, D)‏ بعد ذلك . من خلال حساب © © 0 Z= ut‏ نقوم بمحاكاة 
أخذ العينات N (z, u, o? * I)‏ = (:2|3) م0-ج. حيث ل و 0 هما الاخراج المحدد 
الناتج عن طبقة المشفر و )0,1( €~N‏ 


تعتمد إعادة ely‏ المعاملات فقط على المعاملات المحددة لشبكة الاستدلال. لذلك 
يمكننا حساب التدرجات الناتجة عن وحدة فك التشفير f(z)‏ فيما يتعلق بمعامللات 
التوزيع المتغير المخفية نم و ثم نشر هذه المعلومات إلى المشفر. لذلك » فإن عملية أخذ 
العينات العشوائية باستخدام حيلة إعادة بناء المعاملات كما هو موضح في الشكل 3- 
9: 


1 Parameterization Trick 


التعلم العميق: المبادئ والمفاهيم والاساليب 


Ilx — fll? 


الشكل 8-3 الانتشار الخلفى والحاجة الى حيلة اعادة ely‏ المعاملات. 


Ix - f COL 


f(z) 
d 


t 


© 


نمونهبردارى € از )0,1( ( [isi‏ 


الشكل 9-3 إعادة ely‏ المعاملات بدون أي عقد عشوائية في مسار الإخراج إلى الإدخال وجدوى 
الانتشار الخلفى. 
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يوضح الشكل 10-3 مقارنة الرسم البياني الحسابيني المشفر الذاتي المتغير مع عرض 
أكثر عموميةفي الوضع العادي ووضع المعاملات. 


حالة اعادة المعامللات الحالة العادية 


f 
~ Q(zlb.x) 0f/02; Zg = Ox) 
X 


a x ٠ 10f/0g; SÈ i 
= 1/0 


عقدة محددة : 
عقدة عشوائية @ 


الشكل 10-3 مقارنة بين الوضع العادي ووضع إعادة بناء المعاملات. تؤثر المعاملات اللاحقة التقريبية 
م على دالة الهدف f‏ باستخدام المتغير الكامن(×|2) ,2-0 . ولكن نظرًا لأنه لا يمكن الحصول على 
المشتق f‏ فيما يتعلق ب © (نظرًا oY‏ التدرجات ليست لها قابلية الانتشار الخلفي GM‏ من خلال 
المتغيرات العشوائية 2) » يتم أخذ عينات من المتغير العشوائي الخارجي من التوزيع الثابت = (€)م 
IN (0, T)‏ ثم يتم تنفيذ تحويل متغير بسيط. 


شبكات الخصومة التوليدية! 


كما dul‏ القسم Goll‏ أتاح تدريب النماذج الإنتاجية إمكانية استنتاج المساحة 
الكامنة. أجبر المشفر الذاتي المتغير الشبكة على تعلم تعيين مساحة غاوسية مستقلة 
للتوزيع المستهدف. تم تدريب هذا النوع من النموذج الانتاجي عن طريق تقليل دالة 
الخسارة بين البيانات الأصلية والبيانات المضغوطة. ومع ذلكء.في هذا القسم سوف 
نتعرف على مثال آخر لشبكات التوليد العميقة تسمى شبكات الخصومة التوليدية والتي 
يتم تدريبها بطريقة عدائية. 


1 Generative Adversarial Network (GAN) 
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شبكات الخصومة التوليدية هي طريقة حسابية تعتمد على نظرية اللعبة» وفي جوهرها 
مزيج من شبكتين عصبيتين. تسمى إحدى هاتين الشبكتين بالمولد والأخرى تسمى 
peel‏ وهناك علاقة عدائية بين الشبكتين. ببساطةء يتم تدريب أحدهما على إنشاء 
البيانات والآخر على تحديد ما هو حقيقي وما هو مزيف. يحاول المولد (المزور) خداع 
الشبكة الثانية (محقق يحاول أن يميز المزيف عن الشيء الحقيقي). ومع كل محاولة 
ALLL‏ يمكن أن يتحسن من خلال الحصول على ردود الفعل منها. باختصارء أحدهما 
ينتج والآخر يستكشف الاخطاء» ومعًا وفي تعاون مثالي؛ يحققون نتائج جيدة جدا. 


لتصور عملية الصراع بشكل أفضلء افترض أن Cased‏ (مولداً) يريد كتابة قصائد 
تشبه قصائد المتنبي؛ دون أن يتم عرض أي من قصائد المتنبي أو حتى أدنى معلومات 
عنها. بالنسبة إلى الشخص الآخر (المميز) الذي يجهل بنفس القدر بالمتنبي» يتم عرض 
العناصر التي كتبها المولد وأجزاء من قصائد المتنبي بشكل عشوائي. بعد ذلك. يجب أن 
يقول المميّز ذو الاحتمال على مقياس من 0 إلى 1 أنه يعتقد أن القصيدة المكتوبة 
حقيقية. إذا قام بتصنيف خاطى؛ فسيتم معاقبته. 


سرعان ما يبدأ المميزفي التعلم بطريقة تتجنب العقوبة وتعمل بشكل أفضل في التمييز 
بين القصائد التي كتبها المولد وقصائد المتنبي. أيضاء يتم معاقبة المولد عندما يحدد 
المميز الخطوط بشكل صحيح على أنها مزيفة. بدافع تجنب العقوبة» يبدأ المولدني تعلم 
كيفية إنتاج قصائد مقنعةء و eei‏ الذي يخدع المميّز. تستمر هذه اللعبة إلى النقطة 
التي نأمل أن نحقق فيها توازتاء والذي لن يقوم المولدين والمميزين بتحسين أدائهم. 
يؤدي وجود هاتين الدائرتين من العقاب إلى التعلم. بعد هذه الخطوةء يتم إرسال المميز 
إلى المنزل» بينما يحصل المولد على صيغة معقدة لإنتاج قصائد على غرار المتنبي. يتم 
الحصول على صيغة الإنتاج التي يتم إجراؤها بواسطة المولد من التغييرات وضغط اختيار 
(المميز). مقياس Geld‏ هذه الطريقة هو مدى تصرف المولد بشكل جيدفي خداع 
Zool‏ للاعتقاد ob‏ المثال الجيد حقيقى. 


تقد OI cola cals‏ الخو gs le dad gli‏ انات lex tse‏ كن 
بيانات التعلم مثيرة للإعجاب ولم يسبق رؤيتها من قبل. يقول جان ليكان عن شبكات 
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الخصومة التوليدية: "تعد شبكات الخصومة التوليدية واحدة من أكثر الأفكار إثارة 
للاهتمامني التعلم EIU‏ السنوات العشر الماضية". 


الآن بعد أن أصبحنا على دراية بالمفهوم العام لشبكات الخصومة التوليديةء نعتزم 
شرحه رياضيًا. الهدف من شبكة الخصومة التوليدية هو تعلم مولد (G)‏ يمكن أن يولد 
من توزيع البيانات (pu)‏ عن طريق تحويل المتجهات المضمنة من مساحة كامنة 
منخفضة الأبعاد (Z)‏ إلى عيناتفي مساحة بيانات عالية الأبعاد (). عادة ما يتم أخذ 
عينات المتجهات الكامنة باستخدام التوزيع المنتظم أو الطبيعي ل 7. لتدريب G‏ يتم 
تدريب المميز (D)‏ على تمييز عينات التدريب الحقيقية من العينات المزيفة التي ينتجها 
.G‏ وبالتالي» فإن المميز يرجع القيمة Dy‏ » والتي يمكن تفسيرها على أنها احتمالية أن 
تكون عينة الإدخال Vita x‏ حقيقيًا للتوزيع المحدد.في هذا التكوين» يتم تدريب المولد 
على منع المميز من خلال إنتاج عينات أكثر تشابهًا مع عينات التدريب الحقيقية. من 
ناحية as ST‏ يتم تدريب المميز بالاستمرار على التمييز بين العينات الحقيقية والعينات 
المزيفة. 


النقطة Gingell‏ هذا التكوين هي أن المولد ليس لديه وصول مباشر إلى عينات 
حقيقية لمجموعة التدريب. لأنه يتم تدريبه فقط من خلال التفاعل مع المميز. يوضح 
الشكل 11-3 هيكل شبكة الخصومة التوليدية. من وجهة نظر رياضية. يتم التعبير عن 
الغرض من شبكة الخصومة التوليدية على النحو التالي: 


ming maxpL(D,G) = Ex~p,(x)logD (x) + Ez~p(z)log (1 — D(G(z))) 
= Ex~p œ l0gD (x) + Ez. p, 08 (1 — D(x)) 


في المعادلة أعلاه « (x)‏ ,م هو توزيع البيانات الحقيقية و () وم هو توزيع البيانات 
التي تم إنشاوها بواسطة المولد. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


الشكل 11-3 بنية شبكة الخصومة التوليدية. 


بالإضافة إلى US‏ من أجل تدريب المولد والمميزء يتم إعادة نشر الأخطاءفي مخرجاتهما 
في النموذج. 


reg f eed الخاصة‎ doc كرا‎ 
Vo, — llogb(x'?) + log (1 — D(G(z)))] 


أيضًا « تكون معادلة التحديث للمولد كما يلى: 


m 
1 ; 
Vo, — > log (1 - DG(2®))) 
i-1 
العدد الإجمالى للعينات المختبرة على دفعات قبل تحديث كلا‎ m تمثل‎ c 


تجدر الإشارة إلى أنه نظرًا oY‏ شبكة الخصومة التوليدية ليست سوى LS‏ نظام e‏ 
فالآمر متروك للمستخدم لتحديد العناصر لبناء هذا النظام (المولد والمميز). 
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آلة بولتزمان 


في هذا القسم. سنقوم بوصف نوع خاص من نموذج التعلم SY‏ يسمى UT‏ بولتزمانء 
وهو نموذج قائم على الطاقة. لكن قبل أن ندخلفي تفاصيل هذا النموذج» لفهم هذه 
النماذج بشكل pail‏ دعنا نعود SUB‏ إلى أيام المدرسة. قد تتذكر أن معلمكفي المدرسة 
أوضح سبب عدم تجمع الغازات بالتساويني غرفة اللعب وفي الزاوية. هل سمعت 
مصطلح توزيع ماكسويل- بولتزمان؟ JS‏ معادلة ماكسويل بولتزمان أساس نظرية 


حركة الغاز. يحدد توزيع سرعة الغاز عند درجة حرارة. بعبارات أخرى: 


' في درجة حرارة الغرفة» من المرجح أن يتم توزيع الغازات بالتساويفي جميع أنحاء 
2d‏ لأن هذا التكوين يقلل من طاقة النظام بأكمله." 


هذا هو أصل المبادئ الأساسية لآلة بولتزمان. الطاقة مصطلح قد لا يرتبط بالتعلم 
العميقفي المقام الأول. بدلا من ذلك. الطاقة هي سمة كمية للفيزياء. ومع ذلك» تستخدم 
بعض هياكل التعلم العميق فكرة الطاقة كمقياس لجودة النموذج. على الرغم من أن هذا 
الاتصال قد يبدو Beale‏ الوقت الحالي» إلا أنه سيكون Raza‏ المستقبل. 


أحد أهداف نماذج التعلم العميق هو ترميز التبعيات بين المتغيرات. تحصل النماذج 
القائمة على الطاقة على التبعيات بين المتغيرات عن طريق ربط طاقة قابلة للتطوير JS‏ 
تكوين من المتغيرات» والتي تعمل كمقياس للتوافق. الكثير من الطاقة يعني ضعف 


التوافق. يحاول النموذج المعتمد على الطاقة دائمًا تقليل دالة الطاقة المحددة مسيقا. 


يتضمن التعلمفي نموذج قائم على الطاقة إيجاد دالة طاقة يكون فيها التكوين الملحوظ 
للمتغيرات له طاقة أقل من تلك التي لا يتم ملاحظتها. يعتمد جوهر نماذج البيانات 
المستندة إلى الطاقة على هذا المبداً: إيجاد تكوين النموذج لتقليل طاقة النظام. بمعنى 
آخر الهدف هو تعلم العثور على دالة طاقة (في مساحة دالية محددة (Gs‏ تربط القيم 
الأصغر للتكوينات الصحيحة والقيم الأعلى بالقيم غير الصحيحة» سواء داخل عينات 
التدريب أو خارجها. ثم. من خلال اختيار التكوين الذي يقلل من الطاقةء يتم عمل 
التنبؤات. لقياس جودة دوال الطاقة الحاليةء يتم استخدام دالة الخسارة» والتي يتم 
تصغيرها أثناء التعلم. مع أخذ ذلكفي lee VI‏ دعونا نلقي نظرة على آلة بولتزمان: 
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آلة بولتزمان هي بنية قائمة على الطاقة تعلم توزيع الاحتمالات على متغيرات الإدخال 
الخاصة بها. الفكرة وراء آلة بولتزمان هي أن النموذج يجب أن يكون قادرًا على تعلم 
السلوك الإحصائي لمعاملات الإدخال وحدها ودون أي إشراف على عينات الإدخال. 
عندما يتم تقديم مجموعة من العينات» يجب أن تكون قادرة على تعلم التوزيع الإحصائي 
من خلال خصائص الإدخال. بمجرد أن يلاحظ النموذج جميع عينات الإدخال هذه 
يجب أن يكون قادرًا على إنشاء عينات بمفرده يتم الحصول عليها من التوزيع الاحتمالي 
المشترك مع عينات الإدخال الأصليةء وبالتالي يكون لها نفس السلوك الإحصائي. 


لطاقة في آلة بولتزمان 


آلات بولتزمان قادرة نظريًا على تعلم أي توزيع معين من خلال عرض العينة المأخوذة 
ببساطة. بشكل أساسي » تنشئ الشبكة اتصالات قوية بين العقد لالتقاط الارتباطات التي 
تربطها لإنشاء شبكة مولدة يمكنها إنشاء عينات جديدة من نفس التوزيع. التعلم في هذه 
النماذج هو طبيعة هيب!. بمعنى آخر . لتحديث الأوزان » نحتاج فقط إلى المعلومات 
من الخلايا العصبية المجاورة. فى الممارسة العملية » تقرر الخلايا العصبية تقوية أو 
إضعاف روابطها tly‏ على عدد ا التي تتفق فيها على الإنتاج. 


في آلة cod e‏ لا ترتبط الخلايا العصبية بالخلايا العصبيةفي الطبقات الأخرى فقط « ولكن 
Call‏ بالخلايا العصبية داخل نفس الطبقة. 


من الناحية المعمارية» فإن آلة بولتزمان عبارة عن شبكة من العقد الثنائية. جميع العقد 
متصلة ببعضها البعض بحافة عديمة الوزن لها وزن. إذاكان الوزن 0: فيمكن تخيل العقد 
بدون اتصالء وإذاكان 1. فيمكن أن يحدث العكس. العقدءني أبسط الحالات» هى آلات 
بولتزمان» عشوائية وثنائية. بمعنى. يمكن للعقدة اتخاذ قرار عشوائي بشأن تشغيلها أو 
إيقاف تشغيلهاء اعتمادًا على تكوين العقد الأخرى والوزن المرتبط الذي يربطها معًا. هذا 
يختلف عن الشبكات العصبية المغذيةفي أن دالة تنشيط اعقدة هي تحديد العقد وأوزان 
النموذج. 


1 Hebbian 
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كل عقدة في آلة بولتزمان متحيزة ومتصلة بالعقد المجاورة ذات الوزن المتماثل. 
العقدة Í‏ مجاورة للعقدة  e‏ إذا وفقط إذاكانت العقدة 1 والعقدة j‏ ذات وزن غير صفري. 
تعتمد حالة (أو تنشيط) العقدة فقط على تنشيط العقد المجاورة لها والوزن المرتبط بهاء 
وهي مستقلة بشكل مشروط عن العقد الأخرى ووزن الشبكة. 


لتحديد حالة العقدة « تقوم بإجراء حساب abel‏ 
Zi — bj +) Wy‏ 
j‏ 
في هذه المعادلة bi‏ تحيزء .ر ]18 كانت العقدة ‏ في وضع التشغيل والعكس صحيح 
و Wij‏ هو وزن الحافة بين العقدة ] والعقدة j‏ 


ثم » tly‏ على قيمة c Zi‏ تعمل العقدة i‏ بالاحتمال التالي: 


ET 

إذا تم تحديد عقد آلة بولتزمان بالتسلسل والتحديث العشوائي . فإن آلة بولتزمان 

تصل في النهاية إلى توازن يتم فيه تثبيت توزيع الاحتمالات على العقد x‏ نظرًا ON‏ 

التحديثات عشوائية » لا يمكن توقع تكوين الشبكة في تكوين Joly‏ للعقد. ولكن من 
المتوقع أن يتم إصلاحه في توزيع احتمالي واحد على تلك العقد. 


يتم تحديد طاقة آلة بولتزمان بالمعادلة التالية: 


N N-1 N 
E(x) = 2 bixi = > p Wi jXiXj 
i-1 i=1 j=it+1 


E(x) = —x'W, — bTx 


حيث W‏ هي مصفوفة الوزن d X d‏ بين العقدة ا والعقدة ز و D‏ هو متجه التحيز للعقدة 


l 
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oly‏ على الطاقة . بالنسبة للعقد ‏ الخاصة بآلة بولتزمان في حالة توازن » يتم تحديد 
توزيع الاحتمالات على العقد على النحو التالي: 


P(x) = = 1 rial E(x)) 


في المعادلة z —X.exp(—E(x)) del‏ هو ثابت معادلة للتأكد من أن 
Ay P(x) =1‏ تسمى 7 Cal‏ دالة القسمة1. من المعادلة أعلاه يمكن ملاحظة أن 
الاحتمال x‏ يتناقص بشكل موحد مع زيادة الطاقة. 

في آلة بولتزمان Say‏ إخفاء العقدة أو رؤيتها. تتوافق كل عقدة مرئية مع ميزة فريدة 
للمدخلات والمخرجات التي تمت ملاحظتها. يتم اشتقاق قيم العقد المرئية من 
خصائص dye‏ الإدخال ويمكن استنتاج قيم العقد الكامنة. يوضح الشكل 12-3 بنية آلة 
بولتزمان. 


بعد ذلك » نعرض مجموعة العقد المرئية ك ا ومجموعة العقد المخفية ك h‏ نحدد 
أيضًا مجموعة جميع العقد على أنها Xx = vU h‏ 


i 


الشكل 12-3 بنية آلة بولتزمان مع عقدتين ظاهرتين و3 عقد مخفية. 


1 partition function 
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يمكن أن تعتمد معادلة الطاقةني آلة بولتزمان على التكوين الشائع للعقد المخفية 
والمرئيةء حيث »ve(0,1)?‏ 10,1[7 ع h‏ و a +b = d‏ . يمكن كتابتها كأدناه: 


E(v, h) = —v'w,, — v Won — h™ way — bv — 517 


في المعادلة أعلاه . W,‏ هو متجه الوزن للوصلات بين أزواج العقد المرثية » و Wa‏ هو 
متجه الوزن للوصلات بين أزواج العقد المخفية والمرتية e‏ و وس هو متجه الوزن 
للوصلات بين أزواج العقد المخفية. 


- آلات بولتزمان هي نماذج توليد عميقة غير محددة (أو عشوائية) « والتي تحتوي على 
نوعين فقط من العقد: العقد المخفية والمرئية > حيث لا توجد عقد إخراج! 

* على عكس الشبكات العصبية الأخرى التي ليس لها اتصال بين عقد الإدخال» فإن آلة 
بولتزمان لديها اتصالات بين عقد الإدخال. هذا يسمح لهم بمشاركة المعلومات مع 
بعضهم البعض وإنشاء البيانات اللاحقة بأنفسهم. 


آلة بولتزمان المحدودة 


آلة بولتزمان المحدودة» نوع خاص من آلة بولتزمان ذات الطبقة المزدوجةء Gly‏ ذلك: 
طبقة مخفية وطبقة citys‏ مصممة لحل مشكلة التوزيع المشترك DV‏ بولتزمان. ما يميز 
آلة بولتزمان المحدودة عن آلة بولتزمان هو آنه لا يوجد اتصال مرئي- مرثي ولا اتصال 
خفي- مخفي ني هيكلها. بخلاف Us‏ فإن آلة بولتزمان المحدودة هي بالضبط نفس آلة 
بولتزمان. تعد آلة بولتزمان المحدودة بديلاً قويًا لآلات بولتزمان المتصلة بالكامل عند 
بناء بنية cae‏ نظرًا لاستقلالية العقد البينية» حيث توفر قدرًا أكبر من الحرية والمرونة. 


يمكن وصف آلة بولتزمان المحدودة باستخدام مفهوم النموذج الرسومي المحتمل؛ 
والذي يستخدم التمثيل القائم على الرسم البياني للتعبير عن الاعتماد بين المتغيرات 
العشوائية.في آلة بولتزمان المحدودة. تشكل الوحدات المخفية Gly Guy Us polly‏ من 
جزأين (كمافي الشكل 11). من حيث الاحتماليةء هذا يعني أن المتغيرات المخفية 
مستقلة عن حالة المتغيرات المرئية» والعكس صحيح. توفر خاصية الاستقلال الشرطي 
هذه التعبيرات الشرطية التالية: 
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po) =| [ptu 


pelt) =| [pum 
j= 


فى هذه المعادلات . يكون عدد العقد مخفيًا و M‏ هو عدد العقد المرئية. 


الشكل 13-3 مثال على آلة بولتزمان المحدودة مع 6 عقد مرثية و4 عقد مخفية. 


في UT‏ بولتزمان المحدودة» لا يوجد اتصال بين الطبقات بين العقد المرئية. لا يوجد أيضًا 
اتصال داخل الطبقة بين العقد المخفية. لا يوجد سوى اتصالات بين العقد المخفية 
والمدخلات. سبب تسميتهاء مقصورًا على UT‏ بولتزمان» هو نفس قيود اتصال الطبقة البينية 
بين العقد. يسمح هذا القيد باستخدام خوارزميات تدريب أكثر كفاءة. 


التوزيع الاحتمالي ودالة الطاقة في آلة بولتزمان المحدودة 
يتم تعريف دالة الطاقة في آلة بولتزمان المحدودة على النحو التالي: 
E(v,h) = —vTWh — bv — c'h‏ 


فى هذه المعادلة . 1/7 هى مصفوفة الوزن حيث Wij‏ هو وزن الحواف بين العقدة المرئية 
v;‏ والعقدة المخفية D hj‏ متجه التحيز للعقد المرئية حيث Dp‏ هو انحياز العقدة Vi‏ 
وبالمثل فإن © هو متجه التحيز للعقد المخفية. 


كما هو الحال مع UT‏ بولتزمان . يقتصر توزيع الاحتمال الشائع لآلة بولتزمان على 
h‏ وم على النحو التالي: 
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P(v,h) = 1. e C EC) 
Z 
Gis ES eC EG) هي دالة القسمة المعرفة على انها‎ Zo 
lá à Lo.cJI aLàic Ul شبكات‎ 


كانت شبكات الاعتقاد العميقة واحدة من أو لى النماذج غير الارتباطية التي احتضنت 
بنجاح تعليم الهياكل العميقة. كان إدخال شبكات الاعتقاد العميقة في عام 2006 بمثابة 
بداية نهضة في التعلم العميق الحالي. لأنه قبل ذلك e‏ كان تحسين النماذج العميقة يعتبر 
صعبًا للغاية. تهيمن CYS‏ الاساسية ذات الدوال المستهدفة المحدبة على مساحة 
البحث. تظهر شبكات الاعتقاد العميقة أن الهندسة المعمارية العميقة يمكن أن تنجح 
بأداء أفضل من آلات المتجهات الداعمة الأساسية في قاعدة -MNIST bly‏ 


deed loli المهم ف تاريخ‎ Us Shy ae US Y 


نماذج التوليد à. oJLàJI‏ على التدفق 


القدرة على تقدير الكثافة الصحيحة قابلة للتطبيق بشكل مباشر على العديد من مشاكل 
التعلم SY‏ . ولكنها صعبة للغاية. يسمح التقدير الجيد بأداء العديد من الأشياء BUS‏ 
Gs‏ في ذلك: عينات بيانات جديدة ولكنها واقعية غير ملحوظة (توليد البيانات) e‏ والتنبؤ 
بالأحداث المستقبلية e‏ واستنتاج المتغيرات الكامنة . وملء عينات البيانات غير 
المكتملةء والمزيد. 


أظهرت شبكات الخصومة التوليدية والمشفرات الذاتية المتغيرة أداءً رائعًا في المهام 
الصعبة مثل تعلم توزيع الصور الواقعية. ومع US‏ هناك عدة عيوب لهذه الشبكات. لا 
يسمح أي منها بتقدير دقيق BES‏ احتمالية النقاط الجديدة. بالإضافة إلى ذلك . يعد 
تدريب شبكات الخصومة التوليدية pol‏ صعبًا بسبب مجموعة متنوعة من الظواهر c‏ بما 


1 Deep belief Network (DBN) 
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T.‏ ذلك تلاشى التدرج n‏ وعدم استقرار التدريب n‏ وانهيار الحالة! « والانهيار اللاحق2, 
ويتطلب ضبطًا 35 للمعاملات الفائقة. 


انهيار الحالة 
dole‏ في شبكة الخصومة التوليدية نريد أن ننتج مجموعة متنوعة من المخرجات. على سبيل المثال e‏ 
نريد Gey‏ مختلفا لكل إدخال عشوائي للمولد. ومع ذلك » إذاكان المولد ينتج مخرجات مقبولة » فقد 
يتعلم المولد إنتاج هذا المخرج فقط. بمعنى آخر » يحاول المولد slo‏ العثور على مخرجات منطقية 
للمميز. إذا بدأ المولد في إنتاج نفس الإخراج مرارًا وتكرارًا » فإن أفضل استراتيجية للمميز هي رفض 
هذه النتيجة slo‏ ولكن إذا توقف الجيل التالي من أدوات المميز في الحد الأدنى المحلي ولم يجد 
أفضل استراتيجية » فمن السهل جدا على المميز الحالية العثور على النتيجة الأكثر قبولا لتكرار المولد 
التالي. يتم تحسين كل تكرار للمولد بشكل مفرط لمميز معين e‏ ولا يتمكن المميز af‏ من معرفة طريقه 
للخروج من المصيدة. نتيجة لذلك e‏ تدور المولدات خلال مجموعة صغيرة من أنواع المخرجات. هذا 
النوع من الفشل يسمى انهيار الحالة. 


النماذج المستندة إلى التدفق هي عائلة من نماذج التوليد ذات التوزيعات القابلة 
للحل والتي يمكن أن يكون فيها أخذ العينات وتقدير الكثافة بالتدفقات المعيارية أكثر 
كفاءة ودقة. تعمل النماذج القائمة على التدفق على تحسين الاحتمالية مباشرة من خلال 
التدفقات المعيارية. بمعنى آخر » تتعلم النماذج القائمة على التدفق بالضبط التوزيع 
الفعلي للبيانات وتجعل تقدير الاحتمال الدقيق ممكتا. يوضح الشكل 14-3 مقارنة بين 
نماذج التوليد العميق. 


1 mode collapse 
? posterior collapse 
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شبكة الخصومة التوليدية: 
المشفر الذاتي المتغير: 


ELBO تكبير‎ 


نموذج مولد مستند على التدفق 
تصغير اللوغارتيم 


تستخدم نماذج التوليد المستندة إلى التدفق تسلسلات عكسية لإنشاء تحويلات 
كثافة الاحتمال لتقريب التوزيع اللاحق. يبدأ التدفق بمتغير أساسي . ومن خلال تطبيق 
النظرية بشكل متكرر » يغير المتغير إلى متغير بتوزيع بسيط. نظرًا لأن النموذج القائم على 
التدفق قابل للانعكاس c‏ فمن السهل إنتاج عينات تركيبية عن طريق أخذ عينات "التوزيع 
البسيط" و "التدفق" عن طريق التعيين العكسي. 


من الجدير SUL‏ أن النماذج القائمة على التدفق . على الرغم من توفير ميزات جذابة 
للغاية مثل القدرة على تقدير اللوغاريتمات بدقة » والتوليف الفعال والاستدلال الدقيق 
للمتغيرات الكامنة قد حظيت باهتمام أقل من المشفرات الذاتية المتغيرة وشبكات 
الخصومة التوليدية. على عكس شبكات الخصومة التوليدية والمشفرات الذاتية المتغيرة 
يمكن لهذه النماذج حساب احتمال كل عينة تم إنشاؤها. 


يمكن تقسيم البحث حول نماذج التوليد القائمة على التدفق إلى فتتين: نماذج القائمة 
على التدفق المعادل (الموازن) بالكامل والنماذج القائمة على التدفق ذاتية التنظيم. فيما 
يلي سوف نصف هذه النماذج. 
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النماذج ذات التدفق المعادل 


الهدف من نماذج التوليد القائمة على التدفق هو تقريب توزيع البيانات الحقيقية 
p(x)‏ د من مجموعة محدودة من الملاحظات (x),‏ يتم نمذجة البيانات من 
خلال تعلم تحويل معكوس ل (×) f”‏ = 2 إلى التعيين لمساحة كامنة ذات BUS‏ 
معروفة ACZ)‏ إلى ox‏ ينشئ متغيرًا عشواتيًا جديدا باستخدام دالة تعيين عشوائية = X‏ 
f )2(‏ : 
z-n(z) , x-2f(2),z-f'Q)‏ 

التي نستخدمها باستخدام نظرية المتغيرات المتغيرة: 

1 د 


p(x) — r(2ldet | = = r(f Q0) |det 7 | 


حيث 2 هو متغير كامن و TCZ)‏ هو dole‏ توزيع غاوسي )0,1 .N(z;‏ طريقة استنتاج 
p(x)‏ من TCZ)‏ تسمى تيار المعادل. بمعنى آخر » يجعل تيار المعادل توزيع الاحتمالات 
(مثل غاوسي) ممكنًا لتوزيع أكثر تعقيدًا عن طريق سلسلة من التحويلات العكسية. 


الآن دعنا نلقي نظرة خطوة بخطوة على كيفية تحويل توزيع بسيط مثل 20 إلى توزيع 
Zg‏ معقد Giy‏ للشكل 15-3. 


بافتراض أن لدينا: 


Zo~Po(Zo) » Zy pk (Zk) 


Zk ^v Dx (2x) 


الشكل 15-3 كيفية تحويل توزيع Zo‏ بسيط إلى توزيع Zp‏ معقد. 
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لدينا 15-3 وفقا للصورة: 


Zi-1~Pi-1(Zi-1) 


Zi = fi(Zi-1) 


Zi-1 = fi (z) 
الآن » من أجل التمكن من الاستنتاج من التوزيع الأساسي ؛ نقوم بتحويل المعادلة إلى‎ 


[Zi aslo 


27 dfi" 
pi(z) = :)نط‎ Go|det 7 


Zi | 
اذاكان لدينا:‎ .2 = fy) و‎ y = f (x) لنظرية الدالة العكسية:‎ Gig 


ھک به 


dy dy dx dx 
اذا لدينا:‎ 
dfi ..- 
Pil) = Pi-1(Zi-1)|det (57— 7 ‘| 
Zi- 


ووفقًا للخاصية العكسية لمصفوفة ياكوبية e‏ لدينا: 


Di(Zi) = Pi-1(Zi- 1)|det 57— 2 [5^ 


Zi-1 
dfi 
logpi(z;) = logpi-i(i-1) - log|det 7—— | 
i-1 
الاحتمال » فإننا نعرف العلاقة بين كل زوج‎ BUS بالنظر إلى هذه السلسلة من دوال‎ 
خطوة بخطوة حتى نعود‎ X من المتغيرات المتتالية » لذا يمكننا توسعة معادلة المخرجات‎ 
إلى توزيع ب2 الأصلي:‎ 


X = Zk = fr ° fk-1 ° fh (Zo) 
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dfi 
logp(x) = logn (zx) = logm,—1(Zx-1) = log| det | 
d 
= lo gTk-2(Zg-2) — log det dfr- — log|det fr | 
Zk-2 02-1 

k 
a d fi 
= logno(zg) — ^ log |det 

i=1 diea 


يسمى المسار الذي تسلكه المتغيرات العشوائية )4 z; = fi (Zi‏ التيار وتسمى السلسلة 
الكاملة المكوتة من JE‏ 5 يعات LIL zr; iia‏ المتعادل: 
النماذج ذات التدفق الذاتي 


قيود العودة الذاتية هي طريقة لنمذجة البيانات المتسلسلة as ..., Xp]‏ = . في نماذج 
ذات التدفق الذاتي » يعتمد كل عنصر فقط على العناصر السابقة ولا يعتمد على العناصر 
المستقبلية (يمكن رؤية هيكل هذا النموذج في الشكل 16-3). 


بعبارة أخرى > فإن احتمال ملاحظة xi‏ مشروط 3 (X s Xj-4‏ وحاصل ضرب 
هذه الاحتمالات الشرطية يعطينا احتمال ملاحظة تسلسل كامل: 


D D 
pO) = | [vest a) = | [peto 
i=1 i=1 


إذا تم تعيين التحويل الحالي في المعادل كنموذج ذاتي العودة . بمعنى آخر » يتم 
تكييف كل بعد على متجه متغير للأبعاد السابقة . فهو جريان ذات تدفق ذاتى . 


جريان ذات عودة ذاتية هي مزيج من تحويلات ذاتية العودة لإنشاء فئة جديدة من 
الجريانات الموحدة تسمى جريانات العودة الذاتية » والتي تحقق نتائج متقدمة في 
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الشكل 16-3 رسم بياني لتمثيل التبعيات في نموذج العودة الذاتية 


يرجع النجاح المذهل للتعلم العميق إلى حد كبير إلى الخوارزميات الخاضعة 
للإشراف. ومع ذلك» من أجل تحقيق أداء جيد. يتطلب تدريب هذه الشبكات الكثير 
من مجموعات البيانات المصنفة. 


نشأت إعادة الاهتمام بالتعلم غير الخاضع للإشراف مع إدخال نموذجين جديدين 
للتوليد العميق» وهما شبكة الخصومة التوليدية وشبكة المشفر الذاتى المتغير. 


توفر شبكة المشفر الذاتي طريقة لتعلم الميزات GUE‏ من البيانات غير المسماة التي 
تسمح بالتعلم غير الخاضع للاشراف. 


تقوم الشبكة العصبية للمشفر الذاتي بإجراء الانتشار الخلفي عن طريق ضبط قيم 
إخراج الهدف التي تساوي قيم SoM‏ وبالتالي تدريب المشفر الذاتي لتقليل 
التناقض بين البيانات وإعادة بناتها. 


يسمى التعلمني المشفر الذاتي Cat‏ بالتعلم الخاضع للأشراف GIS‏ لأن النظام يتم 
تدريبه بالفعل بطريقة خاضعة للإشراف باستخدام دالة التكلفة والانتشار الخلفي؛ 
لكنها لا تحتاج إلى بيانات مصنفة. 


SI adl o sc‏ من كلق soU Ke‏ المشفن والشفرة ومفكك التشفيو 
على التوالي. يقوم المشفر بضغط الإدخالء وإنشاء الشفرة» وإعادة بناء وحدة فك 
تشفير الإدخال يناءٌ على الشفرة. 
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9 يعتبر كل من المشفر ووحدة فك التشفير من الشبكات العصبية امامية التغذية ey‏ 
ما يتم تضمينهما بشكل Glace‏ بنية المشفر. 


9 تتمثل إحدى طرق تعلم التمثيلات المفيدة مع المشفرات الذاتيةفي الحد من حجم 
الشفرة للمشفرات الذاتية.في هذه Sed‏ يضطر المبرمج إلى استخراج السمات 
اليارزة من البيانات. 


e‏ النماذج الإنتاجية والقابلة للفصل هما طريقتان مختلفتان تمت دراستهما على نطاق 
واسعفي مشاكل التصنيف. 


e‏ عمل النماذج القابلة للفصل أسهل من عمل النماذج الإنتاجية. SY‏ إذا تم عرض 
بيانات من فئات مختلفة عليهاء فيجب أن تكون قادرة على التمييز بينها.في المقابلء 
تواجه النماذج الإنتاجية مهامًا أكثر صعوبة. لأنه يجب أن تحصل على توزيع للبيانات 
وفهمها ثم القيام بالفرز. 


€ يمكن تعريف النماذج الإنتاجية على أنها فئة من النماذج التي تهدف إلى معرفة كيفية 
إنشاء عينات جديدة تبدو وكأنها من نفس مجموعة البيانات التعليمية. 


€ تندرج النماذج الإنتاجيةفي فئة الأساليب غير الخاضعة للأشراف. BY‏ يحاول معرفة 
توزيع بيانات مجموعة البيانات التعليمية. 


hong pally الإنتاجية بشكل عام إلى فين التماذج الضمنية‎ CHL يمكن تقسيم‎ e 
تتعلم نماذج المولدات الضمنية إنشاء عينات مباشرة (بيانات).‎ € 


S e‏ تقسيم نماذج التوليد العميق إلى ثلاث ES‏ رئيسية: النماذج القائمة على 
التكلفة والنماذج القائمة على الطاقة والنماذج القائمة على التدفق. 


e‏ المشفر التلقائي المتغير هو مثال على نموذج مولد عميق. 
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شبكات الخصومة التوليدية هي طريقة حسابية تعتمد على نظرية اللعبة» وفي جوهرها 
مزيج من شبكتين عصبيتين. واحدة من هذه الشبكات تسمى المولد والأخرى تسمى 
المميز. 


يتضمن التعلمفي نموذج قائم على الطاقة إيجاد دالة طاقة يكون فيها التكوين 
الملحوظ للمتغيرات له طاقة أقل من تلك التي لا يتم ملاحظتها. 


آلة بولتزمان هي بنية قائمة على الطاقة تعلم توزيع الاحتمالات على متغيرات الإدخال 
الخاصة بها. 


تعمل النماذج القائمة على التدفق على تحسين الاحتمالية مباشرة من خلال 
التدفقات المعيارية. 


تتعلم النماذج القائمة على التدفق بالضبط التوزيع الفعلي للبيانات. 


تستخدم نماذج التوليد المستندة إلى التدفق تسلسلات عكسية لإنشاء تحويلات 
BLS‏ الاحتمال لتقريب التوزيع اللاحق. 


أسئلة للمراجعة Ç‏ 
0 


5 ما هو التعلم النشط وما هو استخدامه؟ 


. ما هو التعلم التمثيلي؟ 


: هل من الممكن الحصول على تمثيلات قوية من البيانات غير المسماة؟ 
. هل المشفر الذاتي هي طريقة خاضعة للأشراف أم غير خاضعة للأشراف؟ 
1 ما هي ميزة وضع عنق الزجاجةني | Ata‏ الذاتي؟ 


. ما هي العوامل التي تلعب دورًافي تدريب المشفر الذاتي؟ 
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7. ما الغرض من استخدام المشفر الذاتي المتغير؟ 

8. لماذا يستخدم خدعة ely dole]‏ المعاملاتفي المشفر الذاتي المتغير؟ 
9. اشرح كيف تعمل شبكة الخصومة التوليدية؟ 

0. ما هي مشاكل نموذج مولد الخصومة؟ 

1. ما هو الغرض الرئيسي من نماذج التوليد القائمة على الطاقة؟ 
2.ما هي ميزة آلة بولتزمان المحدودة مقارنة بآلة بولتزمان؟ 


3. اذكر مزايا النماذج القائمة على التدفق؟ 


الاهداف 


n‏ التعرف على التعلم المعزز واختلافه مع التعلم الآلي. 
n‏ كيف يعمل التعلم المعزز. 

s‏ الأساليب الكلاسيكية لحل مشاكل التعلم المعزز. 
* التعرف على التعلم المعزز العميق. 
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المقدمة 


ربما يكون التعلم من خلال التفاعل مع البيئة هو النهج الأول الذي يتبادر إلى الذهن 
عندما نفكر في طبيعة التعلم. هذه طريقة معروفة نعلم أن الطفل يتعلم من خلالها. هذه 
التفاعلات هي بلا شك المصدر الأساسي للمعرفة بين البيئة وبيننا » وليس فقط الاطفال 
طوال الحياة. على سبيل JEI‏ » عندما نتعلم قيادة السيارة e‏ فإننا ندرك LS‏ كيف 
تستجيب البيئة لما نقوم به . ونريد Cal‏ التأثير على ما يحدث في البيئة من خلال أفعالنا. 
التعلم من خلال التفاعل هو مفهوم أساسي متضمن في جميع نظريات التعلم تقريبًا وهو 
أساس التعلم المعزز. 


على الرغم من أن التعلم الخاضع للاشراف هو نوع مهم من التعلم » إلا أنه لا يكفي 
للتعلم التفاعلي وحده. في القضايا التفاعلية » US‏ ما يكون من غير العملي الحصول 
على أمثلة للسلوك المرغوب فيه والتي تكون صحيحة وتمثل جميع المواقف التي يجب 
أن يتصرف فيها الوكيل. يستخدم التعلم المعزز لحل هذه الأنواع من المشاكل. 


يركز نهج التعلم المعزز . أكثر من أي نهج آخر للتعلم SM‏ . على التعلم الهادف من 
خلال التفاعل. في التعلم المعزز o‏ لا يتم إخبار مكون المتعلم بما يجب فعله مثل الأشكال 
الأخرى للتعلم الآلي ؛ بدلاً من ذلك » يجب على الوكيل أن يكتشف c‏ عن طريق التجربة 
والخطأ . ومن خلال تلقي المكافآت والعقوبات » ما هي الأفعال الأكثر إفادة بجهوده. 
بمعنى آخرء لا يتم تعريف التعلم المعزز من خلال وصف طرق التعلم « ولكن من خلال 
تحديد مشكلة. 


عند التعامل مع قضايا المجال Sle‏ الأبعاد أو العوامل الاونلاين » يعاني التعلم 
المعزز من مشكلة عرض الميزات غير الفعال. لذلك e‏ وقت التعلم بطيء ويجب تصميم 
التقنيات لتسريع عملية التعلم. ومن ثم . ظهر مجال جديد يسمى التعلم المعزز العميق 
للمساعدة في حل التعلم المعزز في المشاكل عالية الأبعاد. أهم ميزة في التعلم العميق 
هي أن الشبكات العصبية العميقة يمكنها أن تجد BA‏ تمثيلات مضغوطة للبيانات عالية 
الأبعاد. 
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fo-Lc UI‏ المعزز 

صنع القرار في البشر هو تعلم قائم على الخبرة » ويتم استخدام المكافآت أو العقوبات 
المتلقاة من البيئة لتعلم اتخاذ القرارات في المستقبل. بمعنى آخر e‏ يتم التعلم في الكائنات 
الذكية عن طريق التجربة والخطأ مدفوعين بالمكافأة. بالإضافة إلى ذلك . يتم تشفير 
الكثير من الذكاء البشري والغريزة في علم الوراثة » وهي عملية تطورت على مدى ملايين 
السنين إلى عملية قائمة على البيئة تعرف بالتطور. 


على الرغم من أن التعلم العميق لديه القدرة على تمثيل البيانات بقوة وأداء أفضل 
من العديد من الأساليب GEM‏ في العديد من مجالات التصنيف ومعالجة الصور › إلا 
أنه لا يكفي لبناء نظام ذكي للذكاء الاصطناعي. هذا لأن نظام الذكاء الاصطناعي يجب ألا 
يكون قادرًا على التعلم من البيانات فحسب . بل يجب أن يتعلم أيضًا من التفاعلات 
البشرية مع بيئة العالم الحقيقي. يعد التعلم المعزز أحد مجالات التعلم الآلي ويركز على 
تمكين الجهاز من التفاعل مع بيئة العالم الحقيقي. 


يحاول التعلم المعزز من خلال الوكيل حل المشكلة عن طريق التجربة والخطأ من 
خلال التفاعل مع بيئة غير معروفة للوكيل. يمكن للوكيل تغيير حالة البيئة من خلال أفعاله 
أثناء إجراء ردود فعل فورية من البيئة. be WE‏ يشار إلى الاستجابة على أنها المكافأةفي 
التعلم المعزز. يكتسب الوكيل القدرة على التعلم بشكل أفضل من خلال تلقي المزيد من 
المكافآت الإيجابية من البيئة. بشكل cele‏ هدف الوكيل هو إيجاد سلسلة الإجراءات 
المثلى لحل المشكلة. عادة ما يتم تصميم التعلم المعزز كعملية ماركوف لاتخاذ القرار 
ويمكن وصفه بالشكل 1-4. 


St الحالة‎ 


St 


الشكل 1-4 عرض التعلم المعزز 
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كما يتضح من الشكل 4 15( فإن وحدة التعلم» التي تسمى الوكيل» تغير بيئتها بنشاط 


عن طريق اختيار الإجراء أ من مجموعة من الإجراءات الممكنة. بعد العملية؛ تتغير البيئة 
وفقًا لذلك وتخبر الوكيل بالحالة الجديدة. بالإضافة إلى AUS‏ ترسل البيئة إشارة مكافأة 
٣‏ إلى الوكيل؛ مما يوفر ملاحظات حول الإجراء المحدد Gig‏ للسيناريوهات المحددة. 
يستمر الوكيلفي العمل والانتقال من حالة إلى أخرى. حتى يصل إلى حالة نهائية. 


الوكيل: برنامج تم تدريبه للقيام بمهمة محددة. 

البيئة: العالم الحقيقي أو الافتراضي. حيث يتخذ الوكيل الإجراءات. 

الإجراء: حركة يقوم بها وكيل تؤدي إلى تغيير الحالةفي البيئة. 

المكافأة: تحدد دالة المكافأة هدفاني مشكلة التعلم المعزز وترسم كل حالة ملحوظة 
من البيئة إلى رقم واحد يشير إلى الرغبة الكامنةفي تلك الحالة. الغرض من المكافأة 
في التعلم المعزز هو تقييم إجراء يمكن أن يكون ble!‏ أو سلبيًا والاستجابات التي 
يتلقاها الوكيل من البيئة بعد كل إجراء. قد لا تكون المكافأة الحقيقية لفعل الشيء 
الصحيحفي موقف معين فورية. 

الحالة: جميع المعلومات التي يمتلكها الوكيلفي بيئته الحالية.في لعبة الشطرنج» على 
سبيل المثال» يكون الحالة هو مكان كل القطع على رقعة الشطرنج. 

الملاحظات: بالنظر إلى el‏ بعض الحالات» لا يتمكن الوكيل من الوصول إلى 
الحالة الكاملة WU‏ فعادة ما يكون ذلك جزءًا من الحالة الذي يمكن للعامل مراقبته. 
بمعنى ST‏ الملاحظات هي المعلومات التي توفرها البيئة للوكيل وتوضح ما يحدث 
حول الوكيل. ومع ذلك WE‏ ما يتم استخدامها بالتبادلني الأدب والحالة 
والملاحظة. 

السياسة: تحدد ما سيفعله الوكيل Gedy‏ للوضع الحالي.في مجال التعلم العميق» يمكننا 
تدريب شبكة عصبية لاتخاذ هذه القرارات. خلال فترة التدريب» يحاول الوكيل 
تعديل سياسته لاتخاذ قرارات أفضل. تسمى مهمة العثور على السياسة المثلى 
تحسين السياسة (التحكم) وهي واحدة من القضايا الرئيسيةفي التعلم المعزز. 

دالة القيمة: تحدد ما هو جيد للوكيل على المدى الطويل. بمعنى GST‏ عندما نطبق 
دالة القيمة على حالة معينةء إذا بدأنا من تلك DLS‏ فإنها تعطينا العائد الإجمالي 
الذي يمكن توقعه‌ني المستقبل. 
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ستساعدك الأمثلة البسيطة التالية على فهم T‏ التعلم المعزز بشكل أفضل: 

افترض أن لديك قطة وتريد تدريبها على القيام بأشياء معينة. نظرًا لأن القطة لا تفهم 
اللخة العربية أو أي لغة أخرى . فلا يمكن إخبارها مباشرة بما يجب أن تفعله. بدلا من 
ذلك c‏ يمكن اتباع استراتيجية مختلفة. نقدم موقفًا وتحاول القطة الرد بطرق مختلفة. إذا 
كانت استجابة القطة هى الاستجابة الصحيحة c‏ فإننا نعطيها سمكة. الآن . عندما تتعرض 
قطة لنفس الموقف » تنتظر القطة بفارغ الصبر نفس المكافأة (الطعام). لأنه تعلم أنه إذا 

فى هذا المثال: 


o‏ القطة هي التي تكشف البيئة المنزلية في هذه الحالة. 
e‏ يمكن أن يكون الموقف عبارة عن جلوس قطة ‏ ويمكنك استخدام قول كلمات 
e‏ من خلال القيام بعمل ما » يتفاعل الوكيل بالانتقال من حالة إلى أخرى. على 

سبيل المثال ‏ تنتقل القطة من الجلوس إلى المشي. 
يمكن تقديم مثال آخر للأطفال. غالبًا ما يرتكب الأطفال أخطاء. يحاول الكبار التأكد 
من أن الطفل قد تعلم من هذا الخطأ ومحاولة عدم تكراره مرة أخرى. في هذه الحالة e‏ 
يمكننا استخدام مفهوم التغذية الراجعة. إذا كان الآباء صارمين e‏ فإنهم يلومون أطفالهم 
على أي أخطاء . وهي ردود فعل سلبية. من OW‏ فصاعدا e‏ سوف يخطئ الطفل في SI‏ 
tao ge] od 299) ta e$ al gl agh Gy eV c Cl a ju ol‏ قد 
يمدحهم الآباء لفعلهم الشيء الصحيح. هنا ء نقوم أو نحاول القيام بعمل صحيح بطريقة 


باختصار » التعلم المعزز هو نوع من منهجية التعلم التي نقدم فيها ملاحظات 
للخوارزمية مع مكافآت للتعلم منها . من أجل د تحسين النتائج في المستقبل. 


التعلم المعزز مقارنة بالتعلم الآلي 


على الرغم من أن التعلم المعزز هو مجموعة فرعية من التعلم c SY‏ إلا أنه يختلف 
oes‏ جوهريًا في نواح كثيرة عن أساليب التعلم SW‏ الخاضعة للإشراف وغير الخاضعة 
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للاشراف. أولاً > لا يعتمد التعلم المعزز على استخدام البيانات. في المقابل . في التعلم 
المعزز . يتعلم الوكيل من تجاربه من خلال التجربة والخطأ أثناء التفاعل مع البيئة » 
وليس الأمر متروكا للمشرف لاتخاذ الإجراءات. GE‏ يركز التعلم المعزز على إيجاد 
السياسة الصحيحة بدلاً من تحليل البيانات. Cah‏ نظرًا OY‏ الوكيل يتعلم مباشرة من 
البيئة » فهو لا يحتاج إلى كميات كبيرة من بيانات التدريب الموجودة مسبقًا في مجال 
معين للتعلم. بدلا من ذلك . يقوم بإنشاء بيانات تعليمية عن طريق التفاعل ببساطة مع 
البيئة التي توجد فيها والتعلم من التجربة. 


قرارات عملية ماركوف 


قرارات عملية ماركوف هي نموذج رياضي عشوائي لسيناريو صنع القرار. في كل مرحلةء 
يختار صانع القرار » أو بعبارة أخرى نفس الوكيل » إجراءً. في هذا النموذج » يكون جزء 
من النتيجة Gl pte‏ والجزء SM‏ هو نتيجة فعل. تستخدم قرارات عملية ماركوف لنمذجة 
de cU de pees‏ ل esae USER‏ زوك ise E a Ys‏ اند اميف 
والتعلم المعزز. 


تشبه عملية صنع القرارني ماركوف مخططًا انسيابيًا به دوائر تمثل الحالات. ستظهر 
eel‏ من كل dgio‏ تشير إلى جميع الإجراءات الممكنة التي يمكن اتخاذها من هذا 
الحالة. على سبيل JEI‏ عملية صنع القرارفي ماركوففي تمثيل لعبة الشطرنج لها حالات 
تشير إلى موقع القطع على رقعة الشطرنج والإجراءات التي تشير إلى الحركات المحتملة 
Ly‏ على القطع الموجودة على رقعة الشطرنج. 


الميزة الرئيسية لعملية صنع القرارفي ماركوف هي أن كل حالة يجب أن يحتوي على 
جميع المعلومات التي يحتاجها الوكيل لاتخاذ قرار مستنير» وهو مطلب يسمى "أصول 
ماركوف".ني الأساس. تقول أصول ماركوف أنه لا يمكن للمرء أن يتوقع أن يكون للوكيل 
ذاكرة تاريخية خارج حالته. على سبيل المثال» توضح الحالة الحالية للرقعة كل الأشياء 
الأفضل للخطوة التاليةء ولا داعي للحركات التي تم إجراؤها من قبل لتذكرها. 


في الممارسة العمليةء لا يتعين على التعلم المعزز محاكاة مشكلة العالم الحقيقي من 
أجل حل مشكلة ما. على سبيل المثال» قد تلعب ذاكرتي حول LES‏ لعب خصم معين 
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الشطرنج a»‏ عملية اتخاذ القرار الخاصة بيني العالم الحقيقي» ولكن من الممكن 
الفوز بلعبة شطرنج من خلال التعليم المعزز دون الحاجة إلى هذه المعلومات. 


يتم تحديد عمليات صنع القرار في ماركوف من خلال مجموعة من 5 S> pols‏ 
<y «RP A‏ حيث: 

o‏ 5: مجموعة من الحالات التي تتضمن جميع التمثيلات الممكنة للبيئة. 

٠‏ 8: في كل UE‏ توفر البيئة للوكيل مجموعة من الإجراءات في مساحة التشغيل 
للوكيل للاختيار من تلك الإجراءات. العامل يؤثر على البيئة من خلال 
الإجراءات. 

P-—(sa,$)-BP.(su,-$|s = s,a =a) :P e‏ مصفوفة الانتقال 
هي احتمال أن تؤدي الاجراء © في الحالة s‏ في الوقت غ إلى الحالة 5 في الوقت 
£1 

R = (s,a,5) :R. e‏ المكافأة المتوقعة التي يتلقاها الوكيل بعد الإجراء © في 
الحالة 5 والوصول إلى الحالة 5. 

e‏ : عامل الهبوط ويظهر الأهمية بين المكافآت قصيرة الأجل وطويلة الأجل. 

تتمثل إحدى القضايا الرئيسية في عمليات صنع القرار في ماركوف في إيجاد "سياسة" 

لصانع القرار ؛ دالة P‏ تحدد الحالات للاجراءات a = 7 (s)‏ يمكن أن تكون هذه 
السياسة محددة أو عشوائية. الهدف هو العثور على سياسة تزيد من إجمالي المكافأة إلى 
الحد الأقصى من حالة إلى أخرى: 


G = 3 y! . R(si, di, St44) 


i-t 
الدخل او العائد.‎ Gt يسمى‎ 
الوكيل‎ 
الوكيل هو شخص أو شيء يتفاعل مع هذه البيئة من خلال تنفيذ إجراءات وملاحظات‎ 
معينة وتلقى المكافآت النهائية. العامل هو مكون يقرر بناءً على الثواب والعقاب» الإجراء‎ 
وأي قانون‎ EU الذي يجب اتخاذه. لاتخاذ قرار» يُسمح للوكيل باستخدام أي مراقبة‎ 
داخلي. يمكن أن تكون هذه القواعد الداخلية أي شيء ولكن عادة في التعليم المعزز‎ 
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يتوقع المرء أن يتسم الوضع الحالي من بيئة الامداد إلى الحالة باتخاذ قرارات ماركوف. 
ثم يقررء باستخدام دالة السياسةء ما هو القرار الذي يجب اتخاذه. 


في معظم سيناريوهات التعلم المعزز العملية» من المفترض أن يحل وكيل البرمجيات 
لدينا بعض المشكلات بطريقة أكثر أو أقل كفاءة. الوكيل هو أحد أهم مكونات النظام 
القائم على التعلم المعزز. لأنه يتضمن ذكاءً لاتخاذ القرار والتوصية بالإجراءات 
(العمليات) المثلى في أي حالة. نظرًا لأن الوكيل يلعب دورًا مهما للغاية في التعلم المعزز 
فقد تم إجراء الكثير من الأبحاث حول بنية التعلم والنماذج ذات الصلة. فيما gh‏ نقسم 
الخوارزميات Fle‏ على الوكلاء إلى خوارزميات قائمة على dai‏ وقائمة على الخط. 
وقائمة على النموذج. 


خوارزميات GLoJL8‏ على القيمة 
في الخوارزميات القائمة على القيمةء يتم تعيين دوال القيمة V (s)‏ للحالات ويتخذ 
صانع القرار قراراته Fly‏ على قيم الحالات. دالة القيمة هي دالة تقيم مدى استناد الحالة 
إلى gol‏ بالمكافآت المستقبلية. هناك نوعان مختلفان من دوال القيمة: 
o‏ دالة الحالة-القيمةء التي يشار إليها pul ole‏ دالة القيمةء,6 هي العائد المتوقع بدءًا من 
الحالة S‏ وتتبع السياسة e TE‏ ويتم تعريفها بواسطة معادلة بلمان على النحو التالي: 
V^(s) = E[G;|S; = s]‏ 


= 2: n(a|s) > r(é|s, a)[R = (s, a, $) + y" 9] 


acA SES 
المتوقع هو زوج من الحالة-‎ Gy العائد‎ Q يُشار اليها عادة بقيمة‎ e دالة الحالة-الاجراء‎ ٠ 
geil ule Slab doleo daly (alu وي ر‎ e TE eb C الروقت‎ lM 
التالى:‎ 
Q"(s,a) = E[GIS; = 5, Ar = a] 
- > P(Sls,a)[R = (s,a,8) +Y 5 (4, $£) + Q"(&,4)] 


SES acA 
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معادلات بلمان 
معادلات بلمان هى مجموعة من المعادلات التى تحلل دالة القيمة إلى مكافآت فورية بالإضافة إلى 
القيم المستقبلية المخصومة. 


V^(s) = E[G |S: = s] 

= E[Res1 + YRer2 + y! Rasc...|Sr = s] 
= يبع ]كا‎ + y Guo + yReagt--- Se = s] 
= E[Rr44 + yGralS: = s] 

= E[Ri41 + YV Si dIS: = s] 


وبالمثل بالنسبة © - قيمة: 


07 (s, a) = E[Rt+1 + VV (Se41) [Sp = s, Ac = a] 
= E[Rr44 + YEa~rQ(Se+1, a)lSt = S, Ar = a] 


تم إنشاء المعادلة التالية بين دالات الحالة القيمة و الحالة-الإجراء: 


V") = > mals) Q" s, a) 


a 

الهدف هو زيادة إجمالى المكافأة التراكمية على المدى الطويل. بمعنى ST‏ الهدف 
من الاب الا السياسة المثلى. يُطلق على السياسة الذي تزيد الحد الأقصى 
للمكافأة التراكمية السياسة المثلى ويّشار إليه بعلامة *7. السياسة المثلى ٨”‏ هو أن قيمة 
كل حالة s‏ تحت *7 ST‏ من أو تساوي قيمة الحالة *7 تحت سياسة اخرى T‏ لجميع 
ى© 5: 

VT (s) 2V'(s) > V vseS,n' 

إذا كانت دالة القيمة الحالة هي الأمثل» يستخدم الوكيل السياسة المثلى» وقد يكون 
هناك العديد من السياسات المثلى التى تؤدي إلى نفس دالة القيمة- الحالة المثلى. يمكن 
تعريف دالة الحالة القيمة المثلى y‏ على النحو التالي: 

V*(s) = max,V"(s)VSES 
:Q* تؤدي السياسة المثلى إلى دالةالإجراء الحالة المثلى‎ c بالإضافة إلى ذلك‎ 


Q*(s,a) 2max4,Q"(sa)VseS,aeA 
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7 = يبع ]كا‎ + YV*(S)|S; = s, بك‎ = a] 
أخيرًا » يمكن اشتقاق معادلة تحسين بلمان من المعادلات التي تم تقديمها مسبقا:‎ 
V*(s) = maxgea(s)Q” (s, a) 
= max, E[R;,4 + yV*(S)|S; = 5, A, = a] 
= MAXa 2. P($|s, a) [RCs, a, $) + yV*(S)] 
SES 
= MAXa 2. P($|s, a) [R(s, a, $) + ymax,Q™ (s, 4)] 
SES 

مخطط الدعمني التعلم المعزز 

يمكن فهم معادلات بلمان بشكل أفضل باستخدام شجرة الحالات والاجراءات 
(مخطط الدعم). يُظهر مخطط الدعم تمثيلًا Gye‏ للخوارزميات والنماذج المختلفة في 
التعليم المعزز. 

عملية الدعم (عملية التحديث) هي تمثيل رسومي للخوارزميةء تشير إلى الحالة 
والإجراء Dey‏ التحويلء والمكافأة» وما إلى ذلك. يوضح هذا الرسم البياني قيمة الحالة 
بدائرة مجوفة بينما يتم عرض قيمة الإجراء مع دائرة صلبة. Ga‏ يتم عرض الإجراء بسهم 
يبدأ من الحالة. 

الآن دعونا ننظر في LAS‏ عرض قيمة الحالة باستخدام مخططات الدعم (الشكل 4- 
2 
1. 5 هى حالة البداية والعقدة الرئيسية. 
2. من الوضع eS‏ يمكن إجراء ثلاث عمليات. كما يتضح من السهم ويتصرف الوكيل 

وفقًا لسياسة TU‏ . 
3. إذاكانت البيئة العشوائية لديها احتمالية معينة للإرسال. فيمكن أن ينتهى هذا العامل 
في حالات مختلفة. كما هو موضحف الشكل. هناك 3 حالات محتملة يمكن للوكيل 
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شكل 2-4 مخطط الدعم للحالة القيمة (s)‏ 177 


الخوارزميات المستندة إلى السياسة 

السياسة هي استراتيجية تمكن آلية التعلم من تحديد الإجراء التالي الأفضل بناءً على 
الحالة الحالية. السياسة هي جوهر التعلم المعزز؛ أي أنه وحده يكفي لتحديد السلوك. 

تتخذ الخوارزميات المستندة إلى السياسة نهجًا مباشرًا أكثر من الخوارزميات المستندة 
إلى القيمة. في هذا النهج» Wy‏ من العثور على قيمة كل موقف محتمل ثم الحصول على 
السياسة المثلى؛ يسعون للعثور على السياسة مباشرة لتعظيم العائد المتوقع. 

وبعبارة أخرى» فإن جوهر الأساليب المستندة إلى السياسة هو تحديث معاملات 
السياسة 6 t‏ بحيث يزيد عائد Gy‏ المتوقع. بعبارات أبسط. في النهج القائم على السياسةء 
يتم أولاً اختيار سياسة عشوائية وفي مرحلة التقييم يتم العثور على دالة القيمة لتلك 
السياسة. بعد US‏ حساب السياسة الجديدة باستخدام دالة القيمة للتحسين في كل 
خطوة. يكرر هذه العملية حتى يتم العثور على النهج الأمثل. يتم وصف عملية التحسين 
على النحو التالي: 

6:4 = 0; + A0; 

حيث :6 هي مجموعة من معاملات السياسة التي تم تحديد معاملاتها في سياسة E‏ 

;۸6 هي تغيير معاملات السياسة. 
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الانستخراج+ مقابل الانستكشاف2 


يحاول البشر الحصول على أكبر قدر ممكن من المعلومات قبل القيام بأي شيء. على 
سبيل المثال» قبل تجربة مطعم جديد, حاول قراءة التعليقات أو اسأل الأصدقاء الذين 
op >‏ بالفعل. من ناحية ds SI‏ التعليم المعززء هذا غير ممكن. ولكن هناك بعض 
الأساليب التي يمكن أن تساعدكفي اكتشاف أفضل استراتيجية. 


في التعليم المعززء يمكن للوكيل تطبيق استراتيجيتين عند اتخاذ القراراتفي البيئة: 


e‏ الاستكشاف: اختر إجراءً عشوائيًا. باتباع هذه الطريقةء يمكن للوكيل زيارة 
الحالات الجديدة والعثور على سياسات جديدة وأفضل. والنتيجة هى المزيد 
من المعلومات التي قد تؤدي إلى قرارات أفضل في المستقبل. 

e‏ الاستخراج: كن Lab‏ اختيار أفضل الأعمال المعروفة حسب العلم المتاح» 
باستخدام المكافأة الإجمالية. بمعنى CST‏ تعتزم اتخاذ القرار الأفضل tly‏ على 
المعلومات الحالية. 

في التعلم المعززء يتم استخراج هذا النوع من اتخاذ القرار: عندما تستمرفي العمل 

السابق» يسمى الاستخراج» وعندما تحاول أشياء أخرى» يُطلق عليه الاستكشاف. 
إحدى السمات الرئيسية للتعليم المعزز هي مشكلة الاستخراج مقابل الاستكشاف. 
إذا راد الوكيل تعلم أفعال أفضلء أو بعبارة أخرى» أفعال ستؤديفي النهاية إلى المزيد من 
المكافآت المتراكمةء فعليه أن يجرب أفعالًا جديدة. أيضًاء إذا كان الوكيل قد استخرج 
من معرفته الحالية واتبع الإجراءات المعروفة سابقًا للحصول على تعليقات جيدة 
able‏ فلا يمكن ضمان الحصول على عائد أعلى من المكافأة التي كان من الممكن 
أن يحصل عليها الوكيل. إذن فهذه معضلة يواجهها الوكيل عند اتخاذ قرار بشأن المزيد 
من الإجراءات: إما تجربة إجراءات عشوائية وتخمين أنه سيحصل على المزيد من 
المكافآت» ولكن يخاطر بتفاقم النتيجة. أو من خلال التصرف وفقًا لظروفه الحالية» فمن 
المحتمل أن يحصل على مكافأة أقل ولكن مؤكدة. بمعنى ox‏ إذا كان الوكيل يقوم 
بالاستكشاف فقط, فقد لا يحقق درجات أعلى ويحسن أفعاله. من ناحية أخرى. إذا تم 


1 exploitation 
? exploration 
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استخدام الاستخراج bts‏ فقد يعلقفي سياسته الحالية من خلال رؤية جميع المسارات 


الممكنة. ly‏ من المرجح أن يفوت الوكيل السياسة المثلى. لذلك. يجب أن يكون 
هناك توازن جيد بين الاستكشاف والاستخراج. 


تنشأ هذه المشكلة oY‏ عملية التعلمفي التعليم المعزز تتم اونلاين. بمعنى oe‏ لا تتم 
مراقبة التعليم المعزز بقدر ما يتم مراقبة التعليم. لذلك» يسعى الوكيل نفسه إلى جمع 
البيانات بطريقة ما ويؤثر على البيانات المرصودة من خلال الإجراءات التي يقوم بها. 
لذلك» من المفيد أحيانًا القيام بإجراءات مختلفة للحصول على بيانات جديدة. 


الاستخراج: يعني تحديد أداء الوكيل باستخدام المعرفة ba ye poll‏ والتي يتم عادة تقييم أدائها بالمكافأة 
المتوقعة. على سبيل المثال» أصبح لمنقب الذهب الآن GU-‏ يزوده بغرامين من الذهب يوميًاء وهو يعلم 
أن أكبر خام الذهب يمكن أن يعطيه خمس غرامات من الذهب يوميًا. ومع US‏ فهو يعلم أيضًا أن 
العثور على خام جديد لن يجبره على التوقف عن تعدين الخام الحالي فحسب. بل سيتكبده أيضًا 
تكاليف إضافية لأنه يخاطرفي النهاية بعدم العثور على أي شيء. مع وضع ذلكفي obse MI‏ قرر التنقيب 
في الخام الحالي لتعظيم الحد الأقصى من المكافأة (في هذه الحالة الذهب) من خلال الاستخراج» 
ويتخلى عن الاستكشاف بسبب المخاطر الكبيرة للاستكشاف. السياسة التى تبناها هنا هى سياسة 
date‏ مما يعني أن الوكيل يؤدي باستمرار الإجراء الذي ينتج عنه أعلى مكافأة متوقعة St‏ على 
المعلومات الحاليةء بدلاً من إجراء تجارب محفوفة بالمخاطر تقلل من المكافآت المتوقعة. 


الاستكشاف: يعني زيادة المعرفة الحالية بالأفعال والتفاعل مع البيئة. بالعودة إلى منقب الذهب» على 
سبيل المثال» فإنه يتمنى أن يقضي بعض الوقتفي البحث عن خام جديد. وإذا وجد خامًا SÍ Gad‏ 
فيمكنه الحصول على المزيد من المكافآت كل يوم. للحصول على عوائد طويلة الأجل؛ قد يتم التضحية 
بالعوائد قصيرة الأجل. يواجه منجم الذهب دائمًا مشكلة الاستخراج والاستكشاف. لأنه يتعين عليه 
تحديد مقدار منجم الذهب الذي يجب أن يبقى فيه ومقدار منجم الذهب الذي يجب أن يستمرفي 
العمل. يصف التفاعل بين الاستكشاف والاستخراج التوازن بين مقدار جهد العاملني الاستكشاف 
والاستخراج» على التوالي. يعتبر التفاعل بين الاستكشاف والاستخراج موضوعا رئيسيًا لبحوث التعليم 
المعزز وتطوير خوارزميات التعلم المعزز. 
مشكلة الاستكشاف مقابل الاستخراج هي موضوع متكررفي التعليم المعزز والذكاء 
الاصطناعي بشكل ple‏ هل علينا أن نستخلص من المعرفة المكتسبة. أي هل علينا أن 
نتبع مسارًا معروفًا بمكافآت كبيرة؟ el‏ ينبغي علينا استكشاف المواقف المجهولة oe‏ عن 
سياسة جديدة أفضل؟ التوازن بين كل من استراتيجيات صنع القرار يحسن بشكل كبير 
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أداء التعلم للوكيل. الإجابة المقبولة لحلها هي أن أحد العوامل يحتاج أولاً إلى اكتشاف 
معظم المواقف ثم الحصول على نتائج أفضل من خلال استخراج المعرفة المتراكمة. 
لكن يجب ألا ننسى Gal‏ البيئات الديناميكيةء من الصعب للغاية الحصول على ما إذاكان 
قد تم الاستكشاف الكافي أم لا. ومع ذلك» هناك عدة طرق لاختيار الإجراءات الموضحة 
أدناه. 

إستراتيجية اختيار الجشع - إبسيلون 

طريقة ممكنة وبسيطة وشائعة لكنها فعالة لاختيار الإجراءفي كل مرحلة كاستراتيجية 
اختيار. في هذه الطريقةء يتحكم المعامل إبسيلون © بين 0 و 1في العامل الذي يعمل أثناء 
قيامه بالاستخراج أو الاستكشاف. باستخدام هذه الطريقة.في أي وقت» من المحتمل أن 
يختار الوكيل بين الاستكشاف والاستخراج. يستكشف مع الاحتمال © والاختيار 
العشوائي من جميع العمليات المتاحة ومع احتمال 1 - ع. 


تؤدي القيم العالية ل © إلى قيام الوكيل بمزيد من البحثء. ونتيجة لذلك JUS‏ من 
احتمالية التطبيق الأمثل. حيث أنه يمنح الوكيل القدرة على الاستجابة بسرعة للتغييرات 
التي تحدثني البيئة.في المقابلء تؤدي القيم المنخفضة للعامل © إلى إجراءات أكثر 
كفاءة. 
أ ففف slay ier‏ 
طريقة أخرى لتحديد الإجراءات هي سياسة توزيع بولتزمان. توزيع بولتزمان هو سياسة 
تعليمية تقلل من الميل للاستكشاف بمرور الوقت. ومن المفترض أنه مع تقدم التعلم 
يتحسن النموذج الحالي. يخصص توزيع بولتزمان احتمالية لكل عملية باستخدام معامل 
Nn‏ 


oby‏ باستخدام المعادلة التاليةء يخصص احتمالية إيجابية لكل إجراء محتمل 


:aeA 
Q(s,a) 
T 
P(als) = Osa) 
20642 T 
حيث:‎ 
fu ee Tua tl 
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يرتبط الاجراء مع المزيد من Q(s, a)‏ باحتمال أكبر ل .P‏ يتناقص T‏ مع زيادة التكرار 
j‏ بمرور الوقت. وهكذاء مع تقدم التعلم» يتناقص الميل للاستكشاففي الوكيل» ونتيجة 
لذلك. تميل سياسة التعلم لتوزيع بولتزمان إلى أن تكون مشتقة من الاجراءات ONS‏ 
Q(s, a)‏ العالية. la‏ المعاملات رر sey‏ '3ومعدل الهبوط A dj‏ 


بناء على النموذج مقابل you‏ نموذج 


كما ذكرنا aL‏ فإن الهدف الرئيسي للوكيل في التعلم المعزز هو تجميع أكبر قدر من 
المكافأة على "المدى الطويل". للقيام بذلك » يجب على الوكيل إيجاد السياسة المثلى 
للسلوك في البيئة. يمكن أن تكون البيئة محددة أو عشوائية (غير مؤكدة). بمعنى » إذا el‏ 
الوكيل بإجراء ما فى موقف معين » فقد لا تكون الحالة التالية للبيئة هى نفسها Alo‏ من 
المؤكد أن هذه الشكوك تجعل من الصعب العثور على السياسة المثلى. 


التنبؤ مقابل المراجعة 
تشير إمكانية التنبؤ والمراجعة إلى مسألتين أساسيتين يجب على وكيل التعلم المعزز معالجتهما. يتطلب 
التنبؤ القدرة على حساب أو تقدير عواقب الإجراء. عادة ما تعني المشاكل التنبؤية تقدير قيم الحالات 
أو قيم الاجراء لأزواج الحالة الاجراء.في المقابل» تتطلب المراجعة القدرة على اتخاذ القرارات. بدون 
deel ys‏ الوكيل لا يتخذ أي إجراء. 
مشكلة التنبؤ: بالنظر إلى عملية صنع القرار لماركوف «y R P A S>‏ والسياسة T‏ » يجب 
إيجاد دالة القيمة (TD)‏ 1. بعبارة أخرى, الهدف هو فهم مدى جودة السياسة. 
مشكلة المراجعة: Giy‏ لعملية صنع القرار الخاصة بماركوف < IS‏ ۸ء cy RP‏ يجب العثور 
على القيمة المثلى ل v (mr).‏ والسياسة المثلى *5. بمعنى آخرء الهدف هو العثور على السياسة التى 
توفر أكبر قدر من المكافأة مع أفضل إجراء للاختيار من بينها. 


كما نعلم » في التعلم المعزز . UU‏ ما تتم المشكلة من وجهة نظر رياضية كعملية 
صنع قرار ماركوف. عملية صنع القرار في ماركوف هي طريقة لإظهار ' ديناميكيات' البيئة 
t‏ أي كيف تتفاعل البيئة مع الإجراءات المحتملة للوكيل في موقف معين. بتعبير أدق « 
تم تجهيز عملية صنع القرار في ماركوف بدالة التحويل (النقل) c‏ وهي D>‏ نظرًا للحالة 
الحالية EU‏ والعلم الذي قد يؤديه الوكيل » تجعل من الممكن التحويل إلى أي من 
المخرجات. ترتبط دالة المكافأة أيضًا بعملية صنع القرار في ماركوف. 
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تتم مكافأة دالة المكافأة وفقًا للحالة الحالية للبيئة وربما الإجراء الذي يقوم به الوكيل 
والحالة التالية للبيئة. OUS‏ ما تسمى دوال المكافأة والتحويل بأنماط البيئة. ومع ذلك e‏ 
في بعض الأحيان ليس لدينا دوال المكافأة والتحويل. ومن ثم لا يمكننا تقدير السياسة 
لأنها غير معروفة. في غياب هذه الدوال c‏ لتقدير السياسة المثلى . من الضروري التفاعل 
قم Rll‏ وير Al‏ ا يقار CIE c]‏ ا BY snl ecl‏ 
يجب على الوكيل تقدير السياسة من خلال تعزيز معتقداته حول ديناميكيات البيئة. 


بمرور الوقت » يبدأ الوكيل في فهم LAS‏ تفاعل البيئة مع أفعاله ويمكنه تقدير السياسة 
المثلى. لذلك . في مشاكل التعليم المعزز » يتم تقدير عامل السياسة الأمثل للسلوك في 
بيئة غير مألوفة من خلال التفاعل معها باستخدام طريقة "التجربة والخطأ". Gis‏ لذلك › 
يمكن تقسيم خوارزميات التعلم المعزز إلى خوارزميات قائمة على النموذج أو غير قائمة 
على النموذج. 


في الخوارزميات القائمة على النموذج. يمكن للوكيل الوصول إلى نموذج كامل 
للبيئةء أو يحاول تعلمه من خلال التفاعلء ويستخدم دالة النقل والمكافأة لتقدير السياسة 
المثلى بدقة. بمعنى CAT‏ يحاول الوكيل أخذ عينات من النموذج الاحتمالي وتعلمه 
واستخدامه لتحديد أفضل الاجراءات. يجوز للوكيل فقط الوصول إلى دوال التحويل 
والمكافأة التقريبية التي تعلمها الوكيل. حيث أنه يتفاعل مع البيئة أو يمكن أن يعطى 
لوکیل واحد من خلال وکیل GET‏ على سبيل JEI‏ 


بشكل عام» في الخوارزمية القائمة على النموذج» يمكن للوكيل توقع ديناميكيات 
البيئة أثناء أو بعد مرحلة التعلم. هذا لأنه يحتوي على تقدير لدوال التحويل ودالة BIL‏ 
وإذا تم التعرف على احتمالية النقل بنجاح» فإن الوكيل يعرف مدى احتمالية الدخول في 
حالة معينة بالنظر إلى الحالة الحالية والإجراء. وتجدر LEY‏ مع US‏ إلى أن دوال 
التحويل والمكافأة التي يستخدمها الوكيل لتحسين تقدير سياسته المثلى قد تكون مجرد 
تقريب للدوال "الحقيقية". ومن ثم قد لا يتم العثور على السياسة المثلى بسبب هذه 
التقريبات. 


على عكس الخوارزميات القائمة على النموذج. لا تمتلك الخوارزميات غير 
النموذجية معرفة أساسية بدالة التحويل ويجب أن تتعلمها أثناء التعلم لإيجاد مسارات 
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فعالة. بعبارة أخرى. تقدر الخوارزمية غير المعدلة إما "دالة القيمة" أو Uo"‏ السياسة" 
مباشرة من التجربة» أي من خلال التفاعل بين الوكيل Helly‏ دون استخدام دوال التحويل 
والمكافأة. 


تتمثل إحدى طرق التمييز بين الأساليب القائمة على النموذج وغير القائمة على 
النموذج في: هل يمكن للوكيل التنبؤ بالحالة التالية والمكافأة قبل بدء أي نشاط ما بعد 
التعلم؟ بمعنى آخرء تتمثل طريقة التمييز بين الخوارزميات القائمة على النموذج أو غير 
القائمة على النموذج في فحص الخوارزميات ومعرفة ما إذاكانت تستخدم دوال التحويل 
والمكافأة. إذا تم استخدامهاء فهي عبارة عن خوارزمية التعليم المعزز القائمة على 
النموذج. 


كلتا الطريقتين لها نقاط قوة ونقاط ضعف. تضمن الطرق غير النموذجية إلى حد ما 
أنها ستعثر في النهاية على السياسة المثلى ولديها وقت حساب ضثيل جد لكل تجربة. 
ومع AUS‏ فهم يستخدمون البيانات أثناء اختبار غير فعال LU‏ وبالتالي غالبًا ما يتطلبون 
a‏ كبيرًا من الخبرة لتحقيق أداء جيد. في المقابل» يمكن للخوارزميات القائمة على 
النموذج التغلب على هذه المشكلةء لكن الوكيل يتعلم فقط من أجل نموذج معين وأحيانًا 
لا يكون Cala‏ لبعض النماذج الأخرى. يستغرق الأمر أيضًا وقتا لتعلم نموذج آخر. 


من المزايا المهمة لامتلاك نموذج أنه يسمح للوكيل بالتخطيط للمستقبل ومعرفة ما 
سيحدث لمجموعة واسعة من الإجراءات المختلفة التي يمكنه القيام بها في حالته 
الحالية. ثم قارن هذه النتائج عندما تقرر التصرف. يمكن أن يؤدي هذا إلى تحسن كبير 
في الآداء مقارنة بالخوارزميات التي لا تستخدم النموذج. تعتمد الخوارزميات التي لا 
تعتمد على النموذج فقط على "التجربة والخطأ" لتحديث معارفهم. لذلك. لا يحتاجون 


يمكن تصنيف النهج غير النموذجي على أنه داخل السياسة1وخارج السياسة2. 
تستخدم الأساليب داخل السياسة السياسة الحالية لإنشاء الإجراءات واستخدامها 


1 on-policy 
? off-policy 
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لتحديث السياسة الحالية. في حين أنه. في الأساليب الخارجة عن السياسة؛ يتم استخدام 
سياسة استكشافية مخخلفة لإنشاء إجراءات X Ue‏ بالسياسة HAUS‏ 


المناهج الكلاسيكية للتعلم المعزز 


الآن بعد أن أصبحت على دراية بالمفاهيم الأساسية للتعلم المعزز. سنقومني هذا 
القسم بوصف المناهج الكلاسيكية للتعلم المعززفي حل المشكلات. يمكن تقسيم هذه 
المناهج إلى نموذجية» وغير نموذجية. ومجموعة من النهجين» كما هو موضحف الشكل 
4-3. فيما «quia‏ سوف ندرس هذه المناهج. 


تعلم الفرق الزماني 


الشكل 3-4 LAS‏ تقسيم مناهج التعليم المعزز. 
dao pul‏ الديناميكية' 
يشير مصطلح البرمجة الديناميكية إلى مجموعة من الخوارزميات التي يمكن استخدامها 
لحساب السياسة المثلى وفقًا لنموذج كامل للبيئة كعملية ماركوف لاتخاذ القرار. الفكرة 
الرئيسية للبرمجة الديناميكية والتعليم المعزز بشكل ple‏ هي استخدام دوال القيمة لتنظيم 


: Dynamic programming 
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هيكل البحث عن سياسات جيدة. خوارزميات البرمجة الديناميكية الكلاسيكية لها تطبيق 
محدودفي التعليم المعزز بسبب افتراض نموذج كامل وأيضًا بسبب التكلفة الحسابية 
العالية. ومع à‏ تزال هذه الأساليب مهمة من الناحية النظرية. 


تتضمن البرمجة الذبناميكية تسخن محتلفتين من LAS‏ تنفيذها: تكرار السياسة وتكرار 
القيمة. فيما يلي» سوف نصف بإيجاز هذين النهجين. 


تكرار السياسة 


عندما يتم تحسين سياسة T‏ باستخدام v,‏ للحصول على سياسة ٤‏ أفضلء يمكن حساب 
Vi‏ وإعادة تحسينها للحصول على سياسة m‏ أفضل. الحصول على قواعد موحدة ودوال 
القيمة: 


E I E I E I E 
To جك‎ Ug, —9 Ti —9 Ug, — وم‎ —> +++ — Te — Ue, 


إنه مضمون أن كل سياسة سيتم تحسينها عن السياسة السابقة؛ ما لم يكن هو بالفعل 
الأمثل. نظرًا OY‏ عملية صنع القرارني ماركوف المحدود لا تحتوي إلا على عدد محدود 
من السياسات» يجب أن تتقارب هذه العملية مع سياسة واحدة ودالة القيمة المثلىفي 
عدد محدود من التكرارات. 

تسمى هذه الطريقة للعثور على السياسة المثلى تكرار السياسة. وتجدر الإشارة إلى أن كل 
تقييم للسياسةء والذي يعد بحد ذاته حسابًا GLS‏ يبدأ بدالة قيمة للسياسة السابقة. 
وعادة ما يؤدي هذا إلى زيادة هائلةفي سرعة تقارب تقييم السياسات؛ ربما OY‏ دالة القيمة 
تتغير قليلاً من سياسة إلى أخرى. 

تكرار القيمة 

تتمثل إحدى عيوب طريقة تكرار السياسةفي أن كل تكرار يتضمن تقييمًا للسياسةء والذي 
قد يتضمنفي حد ذاته حسابًا متكررًا طويلاً يتطلب تحولات متعددةفي مجموعة الحالات. 
في حالة تكرار تقييم السياسة. يحدث التقارب GLS‏ مع را فقط ضمن النطاق المسموح 
به. نتيجة لذلك السؤال الذي يطرح نفسه. هل يجب أن ننتظر تقاربًا دقيقا أم يمكننا 
التخلي عنه؟ 
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يمكن تقصير خطوة تقييم السياسة. وتكرار السياسة بعدة طرق دون فقدان ضمان تقارب 
تكرار السياسة. تعتير الحالة الخاصة مهمة عندما يتم إيقاف تقييم السياسة بعد خطوة 
واحدة فقط. تسمى هذه الخوارزمية تكرار AoA)‏ والتي يمكن كتابتها كعملية دعم بسيطة 
تجمع بين تحسين السياسة وخطوات تقييم السياسة: 

Vk 44(s) = maxgE[Rr,4 + Vx (Sta) /S¢ = S, Ac = a] 


= max, ) prs alr yv] 
Sr 


JB Sv" يمكن أن يتقارب مع‎ {i} مرغوب فيه. يمكن إظهار أن التسلسل‎ Vo GY 
0" نفس الظروف التي تضمن وجود‎ 

fold dud‏ كيف ينتهي تكرار القيمة. مثل تقييم السياسة؛ يتطلب تكرار القيمة رسميًا 
Bute‏ غتمتحدود من ca sez) OL Sl‏ تماما مخ الناخية الحملية» وتتوقف doe‏ تتغير 
دالة القيمة بمقدار صغير فقطفي نوبة واحدة. 

تكرار خط السياسة المعمم1 

يتضمن تكرار السياسة عمليتين متزامنتين ومتبادلتين» واحدة تجعل دالة القيمة متوافقة 
مع السياسة الحالية (تقييم السياسة). والأخرى جشع للسياسة فيما يتعلق بدالة القيمة 
الحالية (تحسين السياسة).في تكرار السياسةء تكون هاتان العمليتان متناوبتين وتكتملان 
قبل أن تبدأ العملية الأخرى. لكن هذا ليس ضروريًا Ge‏ على سبيل المثالءفي عمليات 
تكرار القيمة» يتم إجراء تكرار واحد فقط لتقييم السياسة بين كل تحسين للسياسة. 


يستخدم مصطلح تكرار السياسة المعمم للإشارة إلى الفكرة العامة للسماح بالتفاعل بين 
عمليات تقييم السياسة وتحسين السياسة» بغض النظر عن تفاصيل العمليتين. يظهر 
المخطط العام لتكرار السياسة المعممفي الشكل 4-4. 


! generalized policy iteration (GPI) 
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شكل 4-4 تكرار السياسة المعمم. تتفاعل دوال القيمة والسياسة طالما أنها مثالية وبالتالي متوافقة. 


من السهل أن نرى Gal‏ حالة استمرار كل من عملية التقييم وعملية التحسين» أي 
أنهما لم يعدا يتغيران» فيجب أن تكون دالة القيمة والسياسة هي الأمثل. تصبح دالة القيمة 
مستقرة فقط عندما تكون متوافقة مع السياسة الحاليةء وتصبح السياسة مستقرة فقط 
عندما تكون جشعة فيما يتعلق بدالة القيمة الحالية. UY‏ يتم تثبيت كلتا العمليتين فقط 
عندما يتم العثور على سياسة جشعة لدالة التقييم الخاصة بها. يوضح هذا أن معادلة 
تحسين بلمان ثابتة» وبالتالي فإن السياسة والقيمة هما القيمتان الأمثل. 

يمكن اعتبار عمليات التقييم والتحسينفي تكرار السياسة العامة بمثابة منافسة 
وتعاون. على المدى الطويلء تتفاعل هاتان العمليتان لإيجاد حل مشترك: دالة القيمة 
المثلى والسياسة المثلى. 


مونت كارلو 


على عكس البرمجة الديناميكية» تتعلم طريقة مونت كارلو من التجربة فقط. من نواح 
كثيرة» يمكن اعتباره أبسط طريقة للتعلم المعزز. تحدد طريقة مونت كارلو قيمة الحالة 
بتمريرها عدة مرات ومتوسط إجمالي المكافأة المستلمة بعد الموافقة على الحالة. DE‏ 
oY‏ إجمالي المكافأة المستلمة قبل إكمال المرحلة غير معروف» فإن طريقة مونت كارلو 
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تنطبق فقط على مرحلة الاجراء. لا يتم التحديث إلا بعد انتهاء الحركةفي مساحة الحالة 
والتي تسمى التحديث غير المتصل (التحديث أثناء التنقلفي مساحة الحالة يسمى 
التحديث الاونلاين). بالإضافة إلى esa‏ طريقة مونت كارلوء تستند القيم إلى التجربة 
الفعلية» وليس على قيم الحالات البديلة. 


تعتمد طرق مونت كارلو على فكرة تكرار السياسة المعمم. كما ذكرنا سابقاء يعد NSS‏ 
السياسة المعمم مخططً GLS‏ ويتكون من خطوتين.في الخطوة الأولى» نحاول إنشاء 
تقريب lo‏ القيمة sU,‏ على السياسة الحالية» والتي تعرف باسم خطوة تقييم السياسة.في 
الخطوة الثانية» يتم تحسين السياسة i,‏ لدالة القيمة الحالية» والتي تعرف بخطوة 
تحسين السياسة.في طريقة مونت كارلوء لتقدير دالة القيمة» يتم تنفيذ البرامج عن طريق 
تشغيل السياسة الحالية على النظام. يتم استخدام المكافأة التراكمية طوال المرحلة وتوزيع 
الحالات التي تمت مواجهتها لتشكيل تقدير لدالة القيمة. بعد AUS‏ يتم تقدير السياسة 
الحالية بجشع Giy‏ لدالة القيمة الحالية. باستخدام هاتين الخطوتين بشكل متكرر» يمكن 
إظهار أن الخوارزمية تتقارب مع القيمة المثلى ودالة السياسة. على الرغم من أن طرق 
مونت كارلو سهلة التنفيذ. إلا Gol‏ تتطلب عددًا كبيرًا من التكرارات لتتقارب وتعانى من 
تباين كبيرفي تقدير دالة القيمة. 


تعلم الفرق الزمني 


يتضمن تعلم الفرق الزمني أفكار البرمجة الديناميكية ومونت كارلو. يقترب نهج الفرق 
الزمني من قيمة زوج الحالة الإجراء من خلال مقارنة التقديرات عند نقطتينفي الوقت 
المناسب» ومن هنا جاء اسم الفرق الزمني. مثل البرمجة الديناميكية» تتعلم خوارزميات 
تعلم فرق الوقت تقدير القيم Fly‏ على تقديرات أخرى (تسمى البوتسترابينك1). Dai‏ 
يمكن تعلم الفرق الزمني» مثل طريقة مونت كارلوء مباشرة من التجربة دون معرفة مسبقة 
بالبيئة. هذا يعني أن تعلم الفرق الزمني هو نهج تعليمي غير نموذجي (أو يمكن معادلته 
بالتعلم غير الخاضع للإشراف). 


bootstrapping 
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مون تكارلو 
V(S:) + V(S) + o (Ge — V(S:))‏ 


5, 


TALIA) 
الفرق الزمني‎ 


V(St) + (,5)لا‎ + a (Resi +YV(Se+1) - V(S:)) 


Aiba’ 


البرمجة الديناميكية 


V(S:) t E, [Resa + *yV(S«.1)] 


الحالة-القيمة 
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الفكرة الرئيسية لمنهج تعلم الفرق الزمني هي التعلم Fle‏ على الفرق بين تنبؤات الوقت 
المتتاليةء ولا داعي للانتظار حتى نهاية المسار للتحديث. بمعنى آخر الغرض من التعلم 
هو جعل التنبؤ الحالي للمتعلم لنمط الإدخال الحالي أكثر GLSI‏ مع التنبؤ التاليفي الخطوة 
التالية. تكمن فكرة هذه الطريقةفي أنه بعد ملاحظة بعض المكافآت التي حصل عليها 
الوكيل بعد زيارة حالة ما وتنفيذ إجراء معين» فمن الممكن تقديم تقدير أفضل لمقدار 
زوج بين الحالة. الاجراء. 


أساليب مونت كارلو والبرمجة الديناميكية لها نقاط ضعف خطيرة؛ مونت كارلو غير قادر على حل 
المشكلات المستمرة» وتتطلب البرمجة الديناميكية نموذجًا للبيئة. يستخدم تعلم الفرق الزمني عينة 
احتياطيةفي طريقة مونت كارلو والتمهيدفي طريقة البرمجة الديناميكيةفي نفس الوقت. لذلك» يتم الجمع 
بين الأجزاء الجيدة فقط من الطرق السابقة. 


تستخدم طريقة مونت كارلو المكافأة الإجمالية لتحديث دالة القيمة. حيث إن تعلم الفرق الزمني» بدلاً 
من تحديث القيمفي نهاية المرحلة (باستخدام المكافأة الإجمالية)ء تقوم بتحديث القيم اونلاينفي كل 
مرحلة. 


يمكن استخدام مخطط الدعم لمقارنة الأساليب الثلاثة > مونت كارلو » البرمجة 
الديناميكية « وتعلم الفرق الزمني. يمكن رؤية مقارنة بين هذه الأساليب الثلاثة Eby‏ على 
مخطط الدعم للحالة والقيمة في الشكل 5-4. 


C‏ ما يشير تعلم الفرق الزمني إلى مشكلة تنبؤ بقاعدة تحديث لدالة قيمة معينة: 
V(s) > V(s) + a(r +yV(s) - V(s))‏ 


حيث » هو معدل التعلم و y‏ هو عامل الهبوط. يعرف الجزء الموجود بين قوسين 
باسم خطأ الفرق الزمني: 


ôt =r + yV($) - V(s) 


تستخدم طريقة اتعلم الفرق الزمني للتنبؤ بطريقتين مختلفتين للمراجعة. والفرق 
الرئيسي بين الطريقتين هو أن إحداهما في السياسة والأخرى خارج السياسة. 
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الخوارزميتان المستخدمتان على نطاق واسع في التعليم المعزز هما Sarsa‏ و -© 
Sarsa‏ (في السياسة) 
92 هي طريقة تعليم معزز بالفرق الزمني تتعلم الإجراء Vay‏ من دالة القيمةفي محاولة 
لتقدير دالة القيمة. تمت تسمية هذا الميراث باسم: DLS")‏ "الإجراء". "المكافأة". 
"الحالة التالية"؛ "الإجراء التالي'). هذا النهج يكون في السياسة, BY‏ يقدر S, a)‏ ,0 ل T‏ 
للسياسة الحالية. قاعدة تحديث الحالة- القيمة هى كما يلى: 

Q(s, a) > Q(s,a) + a(r  yQ($,á) — Q(s,a)) 
يتقارب مع السياسة المثلى عند زيارة جميع أزواج غير محددة‎ Sarsa يمكن إثبات أن‎ 
من الاجراء الحالة.‎ 


Q- Learning‏ (خارج السياسة) 


يُطلق على تعلم الفرق الزمني خارج سياسة ب Q- Learning‏ وهو أحد أكثر الأساليب 
الأساسية والأكثر G gei‏ لتقدير دوال قيمة © بطريقة غير نموذجية. قاعدة تحديث هذه 
الطريقة هي كما يلي: 
Q(s,a) >> Q(s, a) + a(r + ymaxgQ(S, û) — Q(s,a))‏ 

Ji Q-Learning Jsl‏ قصارى جهدهاني الوضع الحالي. تعتبر هذه الخوارزمية 
خارج السياسة. وذلك لأن دالة Q-Learning‏ تتعلم من الإجراءات خارج السياسة 
الحالية. بشكل «ele‏ تسعى Q-Learning‏ إلى تعلم السياسة من أجل تعظيم المكافأة 
الإجمالية. اليوم » تعتمد العديد من خوارزميات التعلم العميق المعزز على Q-‏ 


.Learning 


o غير ميال بالاستكشاف. وهذا يعنى أنه بغض النظر عن السياسة الاستكشافية المتبعة‎ Q-Learning 
فإنها تتقارب مع السياسة المرغوبة ؛ بافتراض أن كل زوج من إجراءات الحالة تمت زيارته عددًا غير‎ 
محدود ويتم تقليل معامل التعلم » بشكل مناسب.‎ 
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البحث في السياسة 


لا تحتاج طرق البحثفي السياسة إلى الحفاظ على نموذج دالة القيمة» ولكنها تبحث 
مباشرة عن السياسة المثلى TE‏ من بين خوارزميات البحث عن السياسةفي التعلم المعزز 
تعد خوارزمية التدرج السياسي هي الأكثر شيوعًا. 


الغرض من التعلم المعزز هو إيجاد استراتيجية سلوك مثالية للوكيل للحصول على 
المكافات المثلى. تعمل طرق التدرج السياسي مباشرة على نمذجة السياسة وتحسينها. 
يتم تقييم هذه السياسة من خلال تنفيذ الإجراءات المنصوص عليهافي السياسة الحالية 
وحساب المكافأة. ثم يتم تحديث معاملات السياسة لزيادة العائد المتوقع باستخدام 
التدرج التنازلى. يمكن كتابة قاعدة التحديث لمعاملات السياسة على النحو التالى Giy‏ 
SLU‏ المتوقع sr‏ 


0f, = OF + aVorj „j = EL) YT 
k=0 
البحثفي السياسة لديه تقارب أفضل ويمكن أن يتعلم سياسات عشوائية غير ممكنة مع‎ 
الأساليب القائمة على القيمة. العيب الرئيسي لخوارزميات السياسة هو مرحلة تقييم‎ 
من تباين كبير وبالتالي يمكن أن تكون بطيئةفي تعلم السياسات‎ GS السياسة. والتي‎ 
الجيدة.‎ 


نقد الوكيل 

طرق التدرج السياسي النقي بطيئة التعلم بسبب تقديرات التباين العالية وغير مناسبة لأداء 
المشكلات الاونلاين. ومع ذلك» يمكن استخدام طرق الفرق الزمني للتعامل مع هذه 
امنا كل 

تتطلب مقاربات دالة القيمة نظريًا التغطية الكاملة لمساحة الحالة والقيم المضخمة 
المقابلة لجميع العمليات الممكنةفي كل حالة. UA‏ عند العمل مع التطبيقات عالية 
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الأبعاد. فإنه يحتوي على الكثير من التعقيد الحسابى» وأيضاء قد يتسبب تغيير بسيطفي 
القيم المضخمة المحليةفي حدوث تغيير كبيرفي السياسة. 


على عكس طرق دالة القيمة» تراعى طرق بحث السياسة السياسة الحالية والسياسة التالية 
للسياسة الحاليةء ثم تحسب التغييراتفي معاملات السياسة» مما يؤدي إلى تعقيد حسابي 
أقل بكثير من أساليب دالة القيمة. ومع AUS‏ قد تؤدي مناهج بحث السياسة إلى التحسين 
المحلي وتفشلفي تحقيق التحسين العالمي. 


من خلال الجمع بين هذين النهجين» تتعلم طرق نقد الوكيلفي نفس الوقت سياسة ودالة 
الحالة-القيمة. يُعرف هذا النهج» الذي يتم تقديمه من خلال الجمع بين دالة القيمة 
ونهج البحث عن السياسة للاستفادة من LIS‏ الطريقتين» باسم هيكل نقد الوكيل. يمكن 
القول إن طريقة نقد الوكيل هي طريقة تعلم الفرق الزمني التي تخزن السياسة بشكل 
صريح. كما هو مبينفي الشكل 6-4.: يتم اختيار الإجراء بواسطة وكيل التحكم ويتم 
استخدام النقد لنقل القيم إلى الوكيل. «UU‏ يعتمد قرار تحديث السياسة على هذا النقد. 


المكافأة 


الشكل 6-4 بنية نقد الوكيل 
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الطريقة المشتركة (1914-9.Ul2)‏ 


داينا- كيو هي إحدى I‏ التي لديها القدرة على الجمع بين القدرة على التعلم بطريقة 
بدون نموذج والقدرة على البرمجةني الأساليب القائمة على النموذج. تتعلم الخوارزمية 
نموذجًا من خلال رؤية الحالات التي تتم زيارتها والمكافآت التي تتلقاهافي حالة معينة 
وتستخدم المعلومات لتحديث احتمالات النقل ودالة المكافأة. 


عند التعامل مع قضايا المجال عالي الأبعاد أو العوامل الاونلاين» يعاني التعلم المعزز 
من مشكلة عرض الميزات غير الفعال. لذلك» وقت التعلم بطيء ويجب تصميم التقنيات 
لتسريع عملية التعلم. ومن ثم» ظهر مجال جديد يسمى التعلم المعزز العميق للمساعدة 
في حل التعلم المعززفي المشاكل عالية الأبعاد. أهم ميزةفي التعلم العميق هي أن الشبكات 
العصبية العميقة يمكنها أن تجد GLE‏ تمثيلات مضغوطة للبيانات عالية الأبعاد. يجمع 
التعلم المعزز العميق بين فوائد التعلم العميق والتعلم المعزز لبناء أنظمة ذكاء اصطناعي. 


يستخدم التعلم المعزز العميق قوة تمثيل التعلم العميق للتعامل مع الصعوبات 
الموجودةفي التعلم المعزز. يمكن تعريف نظام التعلم المعزز العميق على أنه نظام يزيد 
من المكافأة طويلة المدىفي مشكلة التعلم المعزز باستخدام التمثيلات التي تعلمتها 
الشبكة العميقة نفسها (بدلاً من المصمم). يوضح الشكل 7-4 كيف يعمل التعلم المعزز 
العميق ويقارن بينها. كما هو موضحنفي Gedy pall‏ التعلم المعززء يتم استخدام الشبكات 
العصبية كعامل لحل مشكلة التعلم المعزز. 


1 Dina Q 
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(b‏ التعلم المعزز 
جدول الحلول مسئلة التعلم المعزز 
الاجراءات 7 RA W‏ » 
(ج) التعلم المعزز العميق 3 E i‏ 
eiat ~~ oc‏ المکافات 
a‏ (ب) التعلم العميق 
مسئلة التعلم العميق 
التوقع المصنف 
المشاهدات, phos‏ — 
eed‏ 


الشكل 7-4 التعلم المعزز والتعلم العميق والتعلم المعزز العميق. 


dos plesaly انين‎ ll pac العديدة الناضية عط‎ Ol gad! ida ide 
يشير التعلم المعزز العهيق إلى استخدام الشبكات الخضيية‎ elle مجكيم اللكاء‎ 
العميقة كتقريب للدوالفي القيمة أو دالة السياسةفي إطار التعلم المعززء وقد تم تطبيقه‎ 
من هذا‎ adl الركيل فى ال‎ 1B s السياسي» و نے کیو‎ posl تماد ف‎ 

القسم» نصف خوارزميات التعلم المعزز العميق للتعلم المعتمد على Q‏ 


شبكة كيو العميقة (DQN)!‏ 

تعلم كيو (Q-learning)‏ هي خوارزمية بسيطة لكنها قوية جدًا لإنشاء صفحة قائمة 
فهرس للوكيل. يساعد هذا الوكيل في تحديد الإجراء الذي يجب اتخاذه بالضبط « ولكن 
ماذا لو كانت صفحة القائمة طويلة جدا؟ تخيل بيئة بها 10000 حالة و 1000 إجراء في 
كل حالة. يؤدي هذا إلى إنشاء جدول يضم 10 ملايين خلية وكل شيء يخرج عن نطاق 
السيطرة بسرعة! من الواضح أنه لا يمكننا استنتاج قيمة © للحالات الجديدة من الحالات 
التي تم فحصها مسبقاً. يشير هذا إلى مشكلتين: أولاً > يزداد حجم الذاكرة المطلوبة 
لتخزين الجدول وتحديثه مع زيادة عدد الحالات. WE‏ > مقدار الوقت المستغرق 
لاستكشاف كل موقف لإنشاء جدول Q‏ غير عملي. هذا هو المكان الذي تبرز فيه الفكرة: 


1 Deep Q Learning 
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ماذا يحدث إذا قدرنا قيم Q‏ هذه بنماذج الشبكة العصبية؟ حستا . هذه هي الفكرة من 
وراء خوارزمية DeepMind‏ « والتي أدت إلى شرائها plas Google‏ 500 مليون 
دولار! 
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شبكة كيو العميقة . أو DQN‏ باختصار « عبارة عن خوارزمية قائمة على القيمة 
تستخدم شبكة عصبية Q(s,a|8)‏ لتحسين الإجراء ‏ القيمة *0 لكل عملية في حالة 
معينة على النحو الأمثل. سنستبدل الشبكة العصبية التي تحاول تقريب قيم ©). يتم 
إعطاء الحالة كمدخلات ويتم إنشاء قيمة Q‏ لجميع الإجراءات الممكنة كمخرجات. يتم 
حساب أهداف التدريب ل Q‏ باستخدام معادلة بلمان: 


Q(s,a,0) =r + ymaxqQ(S,á, 6)‏ 
لتدريب الشبكة العصبية c‏ نحتاج إلى دالة الخسارة » والتي تستخدم في شبكة كيو 
العميقة متوسط الخطأ التربيعى فى معادلة بلمان: 


3 
c(0 10) = 5() يعن‎ Alsi nulo |0) = Q).nG10 [0)) 
j SS ر ر‎ 


"AX ma eol) = max lsa 109 i 
على نفسها يمكن أن يؤدي إلى عدم الاستقرار أو‎ Q ومع ذلك فإن اعتماد أهداف‎ 
حيث‎ B= LP(8) حتى الاختلاففي التعلم. وجود مجموعة ثانية من معاملات الشبكة‎ 
يعمل على‎ (I هو فلتر تمرير منخفض (على سبيل المثال» المتوسط المتحرك‎ LP 
استقرار التعلم.‎ 
يمكن أن ينتج عدم الاستقرار الإضافي عن التدريب المباشر على الحالة والمكافآات‎ 
المستلمة. لأنه. على عكس التعلم الخاضع للإشراف. فإن بيانات الإدخال (زوج الحالة-‎ 
سوف تتسع الشبكة‎ UI الاجراء) مرتبطة بشكل كبير وتشكل جزءًا من المسار. نتيجة‎ 
قد تتغير‎ WS بشكل زائد ولن تكون الشبكة قادرة على التعلم بشكل فعال. بالإضافة إلى‎ 
كلتا المشكلتين عن‎ DON يحل‎ Q السياسة وبالتالي توزيع البيانات بسرعة مع تطور‎ 
في مجموعة بيانات الذاكرة ثم التعلمفي‎ Spe Ape Ti Spi طريق تخزين جميع الانتقالات‎ 
مجموعات فرعية تتكون من عمليات نقل عشوائية من تلك المجموعة. بمعنى آخر.في‎ 
أي وقت» يتم استخراج عدد معين من العينات عشوائيًا من الذاكرة واستخدامها للتدريب‎ 
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على الشبكةء مما يؤدي إلى تعلم أفضل عبر الشبكة. تكسر هذه الحيلة ارتباط بيانات 
الإدخال وتسهل التغييراتفي توزيع المدخلات. 
الفرق الوحيد بين Q- Learning‏ و شبكة © العميقة هو الدماغ العامل. يعمل الدماغ في جدول © 
في .Q-Learning‏ ولكن في DON‏ يقوم الدماغ بتشغيل شبكة عصبية عميقة. سيكون الإدخال إلى 
الشبكة العصبية عبارة عن حالات . وسيكون عدد الخلايا العصبية الناتجة هو عدد الإجراءات التي 
يمكن للوكيل تنفيذها. 


شبكة كية العميقة المزدوجة' 


تتمثل إحدى مشكلات خوارزمية DQN‏ أنها alu‏ تقدير المكافأة الفعلية. تفترض 
قيم © أن الوكيل ينوي تحقيق عائد أعلى مما سيتم تحقيقه بالفعل. شبكة كيو العميقة 
المزدوجة هي امتداد لشبكة كيو العميقة لتقليل المبالغةفي التقدير بحيلة بسيطة لفصل 
اختيار الإجراء عن تقييم الإجراء.في هذا النوع من الشبكات» يتم تغيير معادلة بلمانفي 
DQN‏ على النحو التالي: 
Q(s,a,0) = rQ(S, argmax,Q(S, û, 0); Ó)‏ 

SGI‏ تقرر الشبكة العصبية الرئيسية 9 أيّا من أفضل الإجراءات التالية á‏ موجود بين 
جميع الإجراءات اللاحقةء ثم تقوم الشبكة العصبية بتقييم هدف هذا الإجراء لمعرفة 
قيمته ©. لقد ثبت أن هذه الحيلة البسيطة تقلل من المبالغةفي التقديرء مما يؤدي إلى 
سياسات نهائية أفضل. 

تستخدم شبكة كيو العميقة المزدوجة نموذجين متطابقين للشبكة العصبية. يتعلم 
المرء GLS‏ مثل شبكة كيو العميقة أثناء تجربة dole]‏ التشغيل والآخر هو نسخة من الجزء 
الأخير من النموذج الأول. يتم احتساب قيمة © بالفعل مع هذا النموذج GW‏ لماذا؟ 
في DON‏ يتم حساب قيمة Q‏ مع إضافة المكافأة إلى الحد الأقصى لقيمة EQ‏ الحالة 
التالية. من الواضح» إذاكانت قيمة )في كل مرة تحسب فيها e‏ كبيرًا لحالة معينةء فإن 
القيمة التي تم الحصول عليها من ناتج الشبكة العصبية لهذا الموقف المعين ستزدادفي 
كل مرة. يصبح كل خلية عصبية ناتجة أكبر وأكبر طالما أن الفرق بين كل قيمة ناتجة 
كبير. الآن» إذا افترضنا أنه بالنسبة للحالات.» يكون للإجراء © قيمة أعلى من الإجراء b‏ 


1 Double 
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لذلك يتم تحديد الإجراء أ للحالاتني كل مرة. بعد US‏ نظرًا OY‏ الشبكة العصبية يتم 
تدريبها بطريقة توفر قيمة أعلى بكثير للاجراءء يصعب على التدريب الشبكي معرفة أن 
الإجراء (D)‏ هو إجراء أفضلفي بعض الحالات. 


UY‏ لتقليل الاختلاف بين قيم الإخراج (الإجراءات)» يتم استخدام نموذج ثانوي 
يمثل نسخة من النموذج الأصلي من الجزء الأخير. من الواضح. بما أن الفرق بين قيم 
النموذج الثاني أقل من النموذج Le‏ فإننا نستخدم النموذج الثاني لتحقيق قيمة ©. 


^ ^ .. كيو o 1 Jl‏ . معآ 


بالنسبة لبعض الحالات. لا ترتبط الإجراءات المختلفة بالقيمة المتوقعةء ولا نحتاج إلى 
معرفة tb‏ كل إجراء لمثل هذه الحالات. على سبيل المثال» تخيل الوقوف على Je‏ 
ومشاهدة شروق الشمس. المنظر الجميل يخلق إحساسًا بالراحة لك ويمنحك مكافأة 
عالية. يمكنك البقاء هنا ولا تهم قيم © للإجراءات المختلفة. UI‏ قد يؤدي فصل 
القيمة المستقلة للإجراء عن الحالة وقيمة © إلى تعلم أقوى. تقترح شبكة كيو العميقة 
بنية شبكة جديدة لتحقيق هذه الفكرة. بتعبير Gol‏ يمكن تقسيم قيمة © إلى قيمة الحالة 
ودالة الربح: 
Q(s,a) = V(s) + A(s.a)‏ 

تخبرنا دالة القيمة V(s)‏ عن مقدار المكافأة التي سنحصل عليها من الحالات. 
وتخبرنا دالة الميزة ACS. a)‏ عن مدى أفضل مقارنة الإجراء بالإجراءات الأخرى. وبناءً 
عليه» فإن قيمة الحالة مستقلة عن الاجراء. لكن ما هي الميزة؟ قد يكون BLS‏ حالة 
يكون فيها لكل من القيم المطبقة نفس قيمة ©. لذلكء لا يوجد اجراء جيدفي هذه الحالة. 
ماذا يحدث إذا قسمنا قيمة © على قيمة الحالة وربح كل إجراء؟ إذا كان لكل إجراء نفس 
النتيجة. فستكون فائدة كل إجراء لها نفس القيمة. الآنء إذا طرحنا متوسط جميع الأرباح 
من كل ربح» فسنحصل على صفر (أو نقترب من الصفر). وقيمة © هيفي الحقيقة نفس 
الحالة: 


Q(s,a) = V(s) + A(s.a) — D A) 
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بالطبع » تجدر الإشارة إلى أن ناتج النموذج سيكون مقدار الحالة بالإضافة إلى الربح 
المطبق. ومع ذلك » لتعليم النموذج » نستخدم قيمة Q‏ لأغراض ممائلة: 


Q (St at) = Re + ymaxQ (St+1, á) 
&J Jl خلاصة الفصل‎ 

+ على الرغم من أن التعلم الخاضع للإشراف هو نوع مهم من التعلم, إلا أنه لا يكفي 
للتعلم التفاعلي وحده. 

9 يركز نهج التعلم المعززء أكثر من أي نهج آخر للتعلم «JW‏ على التعلم الهادف من 
خلال التفاعل. 

€ يحاول التعلم المعزز من خلال الوكيل حل المشكلة عن طريق التجربة والخطأ من 
خلال التفاعل مع بيئة غير معروفة للوكيل. 

e‏ عادة ما يتم تصميم التعلم المعزز كعملية ماركوف لاتخاذ القرار. 


e‏ الوكيل هو pal tol‏ مكونات النظام القائم على التعلم المعزز. GY‏ يتضمن الذكاء 
لاتخاذ القرارات والتوصية بالإجراءات المثلىفي أي حالة. 


e‏ الهدف الرئيسي للوكيلفي التعلم المعزز هو جمع أكبر قدر من المكافأةني "المدى 
الطويل". للقيام بذلك» يجب على الوكيل إيجاد السياسة المثلى للسلوكفي البيئة. 

e‏ السياسة هي جوهر التعلم المعزز. لأنه وحده يكفي لتحديد السلوك. 

# إحدى السمات الرئيسية للتعلم المعزز هي مشكلة الاستخراج مقابل الاستكشاف. 
Les‏ هذه المشكلة oY‏ عملية التعلمفي التعلم المعزز تتم اونلاين. 

+ تتمثل طريقة التمييز بين الخوارزميات القائمة على النموذج أو غير القائمة على 


Gard db eel‏ الخوارزميات ومعرفة ما إذا كانت تستخدم دوال التحويل 
والمكافأة. 
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بسبب افتراض نموذج كامل وأيضًا بسبب التكلفة الحسابية العالية. 


كثيرة» يمكن اعتباره أبسط طريقة للتعلم المعزز. 


¢ تعمل طرق مونت كارلو على أساس فكرة تكرار السياسة المعمم. 
e‏ طرق مونت كارلو قابلة للتطبيق فقط للعمل خطوة بخطوة. 
9 يتضمن تعلم فرق التوقيت أفكار البرمجة الديناميكية ومونت كارلو. 


Gi e‏ على تعلم فرق التوقيت خارج سياسة Q-Learning‏ أحد أكثر الطرق 
الأساسية والشائعة لتقدير P‏ قيمة Q‏ بطريقة غير نموذجية. 


e‏ عند التعامل مع قضايا المجال عالي الأبعاد أو العوامل الاونلاين» يعاني التعلم المعزز 
من مشكلة عرض الميزات غير الفحال. 


€ يستخدم التعلم المعزز العميق قوة تمثيل التعلم العميق للتعامل مع مشاكل التعلم 


المعزز. 
أسئلة للمراجعة Ç‏ 


1. هل التعلم الخاضع للإشراف وحده قادر على حل التعلم التفاعلي؟ 
2. ما التعلم المعزز المناسب لحل المسائل؟ اشرح كيف يعمل؟ 


3. ماهو الغرض من الوكيلفي التعلم المعزز؟ 
4. ماهي مكونات نظام التعلم المعزز؟ 


5. اشرح دور دالة القيمة ودالة المكافأة؟ 
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قارن بين التعلم المعزز والتعلم الآلي؟ 


. ما هي القضية الرئيسيةفي عملية التعلم المعزز؟ 


. مافائدة السياسةفي التعلم المعزز؟ 


Gall ga la‏ نيه dl Served cola ol ell‏ السياسة js oid‏ مات الد 
القيمة؟ 


. اشرح مشكلة الاستخراج مقابل الاستكشاففي التعلم المعزز؟ 

. قارن بين الأساليب القائمة على النموذج مع الأساليب غير النموذجية؟ 

. لماذا تعتبر خوارزميات البرمجة الديناميكية محدودة الاستخدامني التعلم المعزز؟ 
.ما هي أسهل طريقة للتعلم المعزز وكيف يعمل؟ 


. قارن بين طرق مونت كارلو والبرمجة الديناميكية؟ 


ما هي ميزة خوارزمية تعلم فرق التوقيت على طرق مونت كارلو والبرمجة 
الديناميكية؟ 


. ما هي الفكرة الرئيسية لتعلم فرق التوقيت؟ 
. ما هي مزايا وعيوب طريقة التدرج السياسي على طريقة دالة القيمة؟ 


. سمي بعض خوارزميات تعزيز التعلم العميق القائمة على *Q‏ 
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التعلم الانتقالي العميق 


الاهداف 


m‏ التعرف على التعلم الانتقالي والهدف من استخدامه. 
m‏ التعرف على التعلم الانتقالي العميق وطرقه واستراتيجياته. 


الفصل الخامس: التعلم الانتقالى العميق 


المقدمة 


مثل الذكاء الاصطناعي والتعلم JY‏ تطور مفهوم التعلم الانتقالي على مدى عقود. منذ 
السنوات الأولى للذكاء الاصطناعى» اعتبر الباحثون القدرة على نقل المعرفة كأحد الركائز 
الأساسية للذكاء. بصرف النظر عن الذكاء الاصطناعي وعلوم الكمبيوتر» فقد تمت صياغة 
مفهوم التعلم الانتقالي Cal‏ بمصطلحات مختلفة. على سبيل المثال.في مجال علم نفس 
التعلم» يعتبر مفهوم التعلم الانتقالي قضية مهمةفي نمذجة ما يشكل التعلم الفعال وتعليم 
المعلمين. من المعتقد أن التدريب الأفضل يمكن الطالب من "تعلم الكيفية" وتكييف 
المتعلم مع المواقف المستقبلية. على الرغم من اختلاف الاسماء إلا أن هيكلها الأساسي 
وموضوعها متماثل: القدرة على استخدام خبراتهم السابقة والمساعدةفي اتخاذ قرارات 
ss‏ فاعليةفي المستقبل. 


يعتمد التعلم العميق بشكل كبير على كميات كبيرة من البيانات للتدريب مقارنة 
بأساليب التعلم الآلي التقليدية. لأنهم يتعلمون الميزات أو الأنماط المخفية من بيانات 
التدريب SU‏ وهذا يتطلب كمية كبيرة من البيانات. بالإضافة إلى ذلك ob‏ معظم 
نماذج التعلم العميق متخصصةني مجال معين أو حتى وظيفة معينة. 


على الرغم من أن هذه النماذج قد تكون متقدمة ودقيقة AUU‏ إلا أن هذه الدقة 
ستكون فقطفي مجموعات بيانات محددة للغاية» وإذا تم استخدامهاني مهمة جديدة قد 
تكون متشابهة» فسوف تفقد أداتها بشكل كبير. UU‏ من أجل حل هذه المشكلات» 
فإنه يحفز استخدام التعلم GJS‏ التعلم العميق لمحاولة تجاوز مهام ومجالات 
محددة لمعرفة كيف يمكن استخدام المعرفة من النماذج المدربة مسبقًا واستخدامها 
لحل المشكلات الجديدة. 


التعلم الانتقالي 


يمتلك البشر قدرة فطرية على نقل المعرفة بين المهام. يستخدمون ما يكتسبونه عندما 
يتعلمون مهمة كمعرفة بنفس الطريقة لحل المهام ذات الصلة. على سبيل المثالء 
الشخص الذي يعرف كيف يقود سيارة يتعلم قيادة الحافلة أسرع من غيره. والمثال الأكثر 
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واقعية هو أن طالبًاني الصف الأول يتعلم القراءة والكتابة» وفي الصفوف العليا يستخدم 
هذه القراءة والكتابة لتكون مفيدةفي تعلم الدروس. 


باختصارء لا يتعلم البشر كل شيء من الألف إلى الياء وينقلون معارفهم من 
المجالات التي تعلموها سابقا إلى المجالات والمهام الجديدة. OM‏ كلما زادت ترابط 
هذه المهام» أصبح من الأسهل نقل المعرفة أو استخدامها. تسمى هذه القدرة على JE‏ 
المعرفةفي التعلم JM‏ بالتعلم الانتقاليء أي القدرة على إعادة استخدام النمط الذي تم 
إنشاؤه وتدريبه لمهمة ما كنقطة انطلاق لمهمة ثانوية» توفر المصادر المختلفة تعريفات 
مختلفة للتعلم الانتقالي.في هذا الكتاب. نحدد التعلم الانتقالي على النحو التالي: 


استخدام نموذج مدرب مسبقًا لنقل المعرفة من هذا النموذج إلى مهمة مماثلةء من أجل 
تحسين أداء هذه المهمة الجديدة. 


لفهم التعريف الرسمي للتعلم الانتقالي» من الضروري Vol‏ تحديد المجال والمهمة. 
المجال عبارة عن مجموعة من البيانات التي يتم استخدامها لتعليم الاستخدام ويتم تمثيل 
المجال على أنه D = (c P(X)}‏ والذي يتكون من مكونين: y‏ مساحة الميزة و P(X)‏ 
توزيع احتماليفي هذا التعريف X= (xp Xn} € X‏ يمكن تمثيل المهمة بمساحة 
التسمية y‏ ودالة النموذج المستهدف f(x)‏ يمكن Cal‏ كتابة DUS f(x)‏ احتمالية 
مشروطة Py [x)‏ يمكن الآن تعريف التعلم الانتقالي رسميًا على النحو التالي: 


JJ ct‏ المجال ages Ds Leal‏ اتل T, pirat!‏ « والمجال Dy‏ الهف نة 
التعلم الهدف 1 . حيث يكون حجم Ds‏ أكبر من حجم Di‏ يعد التعلم الانتقالي طريقة 
لتحسين أداء النموذج الهدف fir.)‏ لمهمة التعلم الهدف T,‏ باكتساب معرفة ضمنية 

T; T, Ds £ 1, حيث‎ T, و‎ Ds من‎ 


يعالج التعلم الانتقالي كيف يمكن للأنظمة التكيف بسرعة مع الظروف الجديدة 
والمهام الجديدة والبيئات الجديدة. يسمح هذا النظام لأنظمة التعلم JY‏ باستخدام 
البيانات والنماذج المساعدة للمساعدةفي حل المشكلات حيث لا يتوفر سوى كمية 
صغيرة من البياناتفي المجال الهدف. هذا يجعل هذه الأنظمة أكثر موثوقية. 
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يعد التعلم الانتقالي Views‏ مهمّاني التعلم JV‏ على وجه الخصوص يمكننا النظر إليه 
من زوايا مختلفة. Nol‏ يبدو أن القدرة على التعلم من البيانات الصغيرة هي جانب قوي 
جد من جوانب الذكاء البشري. على سبيل JEI‏ نلاحظ أن JULY‏ يتعلمون من أمثلة 
قليلة فقط ويمكنهم بسرعة وفعالية تعميم المفاهيم من بعض الأمثلة. يمكن تفسير هذه 
القدرة على التعلم من البيانات الصغيرة ye je‏ خلال قدرة الإنسان على استخدام 
الخبرة السابقة والنماذج المدربة للمساعدةفي حل مشاكل الهدف المستقبلية. التكيف هو 
قدرة فطرية للكائنات ASU‏ وبالتأكيد يجب أن يكون لدى عملاء الذكاء الاصطناعي 
القدرة على التعلم بشكل انتقالي. 


GL‏ من الناحية العملية» WE‏ ما يكون التعلم bbe JY‏ بمجموعات بيانات 
صغيرة. العديد من المنظمات غير قادرة على جمع كميات كبيرة من البيانات بسبب قيود 
مختلفة» من قيود الموارد إلى مصالح المنظمات وقوانين ولوائح خصوصية المستخدم. 
هذا التحدي مع OLLI‏ الصغيرة هو مشكلة خطيرة تواجه العديد من المنظماتفي 
استخدام تكنولوجيا الذكاء الاصطناعيني مشاكلهم. التعلم الانتقالي هو حل جيد لهذا 
التحدي. لأنه يمكن استخدام الكثير من البيانات المساعدة والنماذج الخارجية وتكييفها 
fod‏ اللشكلات Biga‏ 


بالإضافة إلى ذلك عند مواجهة تغييرات غير متوقعة وعبور نموذج تم تعلمه عبر 
حدود المجال» يضمن التعلم الانتقالي أن أداء النموذج لا ينحرف كثيرًا عن الأداء المتوقع. 
بهذه الطريقةء يتيح التعلم الانتقالي إعادة استخدام المعرفة. وهكذاء بمجرد اكتساب 
الخبرةء يمكن تطبيقها بشكل متكررفي العالم الحقيقي. من منظور نظام برمجي» إذا كان 
النظام قادرًا على التكيف مع التعلم الانتقاليفي مجالات جديدة فيقال إنه أكثر مرونة 
وموثوقية عندما تتغير البيئة الخارجية. غالبًا ما تكون مثل هذه الأنظمة مفضلةفي 
الممارسة. 


يركز التعلم الانتقالي على استخراج البيانات من مجال مشابه لزيادة القدرة على 
التعلم أو تقليل عدد العينات ذات العلامات المطلوبةفي المجال المستهدف.في التعلم 
الانتقالي» يستخدم أحد النماذج المعرفة المكتسبة من العمل السابق لتحسين التعميم 
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على نموذج آخر. الغرض من التعلم الانتقالي هو تحسين عملية تعلم المهام الجديدة 
باستخدام الخبرة المكتسبة من حل المشكلات السابقة المتشابهة إلى حد ما. 


يعد التعلم الانتقالي مفيدا بشكل خاص في النماذج التي يتم تدريبها تدريجيّا. ويمكن 
استخدام نموذج موجود كنقطة انطلاق لمزيد من التدريب» مثل شبكات التعلم العميق. 
من المهم ملاحظة أن مخرجات نماذج التعلم الانتقالي تتأثر BIL‏ بين المصدر 
والمجالات المستهدفة. إذا كان للمجال المصدر والمجال الهدف معرفة أقل شيوعاء 
فسيؤثر هذا النموذج Ube‏ على التعلم والدقة الهدف. وهو ما يسمى الانتقال السلبي. 


يمكن تحديد ثلاثة معايير مشتركة توضح أن التعلم الانتقالي يمكن أن يحسن فعالية 


التعلم (الشكل 5 


e‏ بداية أعلى: الأداء الأولي الذي يمكن تحقيقهني المهمة المستهدفة باستخدام 
المعرفة المنقولة من المصدر فقطء قبل القيام ch‏ تعلم إضافي» أفضل بكثير 
من الأداء الأولي لعامل جاهل. 

e‏ ميل أعلى: يشير هذا المعيار إلى مقدار الوقت المطلوب لتعلم المهمة بشكل 
كامل وفقا للمعرفة المنقولة مقارنة بمدة التعلم من البداية. 

ه مقارب أعلى: مستوى الأداء النهائي القابل للتحقيق بالنسبة للمهمة المستهدفة 
مقارنة بالمستوى النهائي بدون نقل. 


الاداء 


التدريب 


الشكل 1-5 ثلاثة معايير يمكن من خلالها الانتقال يحسن التعلم. 
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أثناء عملية التعلم JUS E‏ تبرز ثلاثة أسئلة مهمة تحتاج إلى إجابة: 


1. ما يجب نقله: الخطوة الأولى والأكثر أهميةفي جميع عمليات التعلم الانتقالي 
وهي تشير إلى المعرفة التي يمكن نقلها. نحتاج إلى العثور على الإجابة التي يمكن 
نقل جزء المعرفة إليها من المصدر إلى الهدف لتحسين أداء العمل. يجب أن 
نحاول فهم أي جزء من المعرفة يتطلبه المصدر وما هو مشترك بين المصدر 
والهدف. 

2. وقت النقل: لا يؤدي نقل المعرفة دائمًا إلى تحسين النتائج بل قد يؤدي أحياتًا إلى 
جعل النتائج أسواً. يُعرف هذا بالانتقال السلبي. هدفنا من التعلم الانتقالي هو 
تحسين النتائج وليس تقليلها. UI‏ يجب أن نكون حذرين ونعرف متى نستخدم 
التعلم الانتقالي ومتى لا نستخدمه. 

3. كيفية النقل: بعد DEY‏ على السؤالين السابقين» حان الوقت OW‏ لاختيار طريقة 
نقل المعرفةفي المجال المطلوب. 


متى نستخدم التعلم الانتقالي؟ 


أكبر ميزة للتعلم الانتقالي هي عندما تكون مجموعة البيانات المستهدفة صغيرة نسبيًا. 
في العديد من هذه الحالات » قد يكون النموذج عرضة للضبط الزائد » وقد لا تؤدي زيادة 
البيانات إلى حل المشكلة دائمًا. لذلك e‏ يتم استخدام التعلم الانتقالي بشكل أفضل عندما 
يكون نموذج عمل المصدر في مجموعة تدريب أكبر بكثير من ذلك الذي تم تحقيقه 
للعمل المستهدف. ومع ذلك » في التعلم الآلي . لا توجد قاعدة واحدة تناسب الجميع. 
ومع ذلك . باختصار » يمكننا استخدام التعلم الانتقالي عندما نواجه ما يلي: 


Yo‏ توجد بيانات تدريب مصنفة كافية لتدريب الشبكة. 
Bee SES ly Ket des Jeg =‏ دن LM‏ قو Soils gay‏ 
افر Aaa‏ 


التعلم الانتقالي العميق 


تم تصميم التعلم الآلي التقليدي وخوارزميات التعلم العميق تقليديًا لمهمة واحدة بشكل 
منفصل. يجب إعادة تصميم هذه النماذج وإعادة بنائها بمجرد أن يتغير توزيع المساحة 
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المميزة. التعلم الانتقالي هو فكرة التغلب على التعلم المنفصل واستخدام المعرفة 
المكتسبة لمهمة لحل مهمة ذات صلة. يختلف التعلم الانتقالي عن التعلم الآلي التقليدي. 
لأنه يتضمن استخدام نموذج مدرب مسبقا كنقطة انطلاق لبدء مهمة ثانوية. 


Gee‏ اعتبارك نموذجًا Hob‏ على التمييز بين التفاح الناضج والتفاح الفاسد. حتى 
لو كان الكمثرى مختلفاني الشكل» فإن الخصائص التي تسبب تعفن الفاكهة يمكن أن 
تكون شائعة. ضعفي اعتبارك أن لدى المنظمة نموذجًا للتفاح يمكنه التمييز بين التفاح 
الطازج والفاسد. لكن المنظمة نفسها تفتقر إلى بيانات كافية للكمثرى.في هذه الحالة 
يمكن تدريب نموذج التعلم العميق باستخدام مجموعة بيانات التفاح ثم تحديثه 
باستخدام مجموعة البيانات الصغرى للكمثرى. يحظى استخدام التعلم الانتقاليفي التعلم 
العميق بشعبية كبيرة حاليًا. لأنه يمكنه تدريب الشبكات العميقة ببيانات قليلة نسبيًا. 


يمكن تعريف التعلم الانتقالي العميق رسميًا على النحو التالي: 


وفقا لتعريف مهمة نقل التعلم بواسطة D, T, Di Te fr.)‏ هذه مهمة تعلم نقل 
عميق حيث (.) f‏ هي دالة غير خطية تعكس الشبكة العصبية العميقة. 


الدافع لاستخدام التعلم الانتقالي العميق 


على الرغم من أن الشبكات العميقة تعمل على حل المشكلات التي كانت مستحيلة لعقود 
من الزمن . إلا أن هذه الشبكات تواجه تحديات فى حل المشكلات المعقدة. الاعتماد 
على البيانات هو أحد أخطر هذه المشاكل. يعتمد التعلم العميق بشكل كبير على كميات 
كبيرة من البيانات للتدريب مقارنة بأساليب التعلم JW‏ التقليدية. لأنهم يتعلمون 
الميزات أو الأنماط المخفية من بيانات التدريب BUG‏ > وهذا يتطلب كمية كبيرة من 
البيانات. ومع ذلك e‏ فإن البيانات التعليمية غير الكافية في مناطق معينة (على سبيل 
المثال » تشخيص الأمراض النادرة) هي مشكلة لا مفر منها. بالإضافة إلى ذلك» تتخصص 
معظم نماذج التعلم العميق في مجال معين أو حتى وظيفة معينة. 


على الرغم من أن هذه النماذج قد تكون متقدمة ودقيقة للغاية « إلا أن هذه الدقة 
ستكون فقط فى مجموعات SLL‏ محددة للغاية » وإذا تم استخدامها في مهمة جديدة 
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قد تكون متشابهة » فسوف تفقد أدائها بشكل كبير. هذا يحفز استخدام التعلم الانتقالي 
الذي يتجاوز المهام والمجالاات المحددة > ويسعى لمعرفة كيف يمكن استخدام المعرفة 
من النماذج المدربة مسبقًا واستخدامها لحل المشكلات الجديدة. 


في التعلم الانتقالي . لا يجب أن تكون البيانات التدريبية وبيانات الاختبار من نفس 
المجال. Cal‏ . لا يتطلب نموذج المجال الهدف تدريبًا من البداية. تحل الشبكات 
العصبية العميقة ذات الملايين من الأوزان القابلة للتعديل مشكلة في عملية التدريب. 
تتمثل الفكرة الأساسية للتعلم الانتقالي في بدء عملية التعلم بشبكة تعلم عميق تم تدريبها 
بالفعل على مشكلة مماثلة. هذا يمكن أن يقلل بشكل كبير من الحاجة إلى بيانات التدريب 
ووقت التدريب في المجال الهدف. 


فوائد التعلم الانتقالي 


هناك العديد من الفوائد لاستخدام النماذج التي تم تدريبها بالفعل في مجال ما وإعادة 
استخدامها فى مجال آخر. بعض الفوائد الرئيسية مذكورة أدناه. 


e‏ التدريب ببيانات أقل: البدء في تدريب نموذج من البداية مكلف ويتطلب الكثير 
من البيانات. على سبيل المثال ‏ إذا أردنا إنشاء خوارزمية جديدة يمكنها 
اكتشاف الوجه العابس » فنحن بحاجة إلى الكثير من بيانات التدريب. يجب أن 
يتعلم نموذجنا LES Yol‏ التعرف على الوجوه . وعندها فقط يمكن أن تتعلم 
كيفية التعرف على تعابير الوجه مثل الوجه العابس. بدلاً من ذلك » إذا استخدمنا 
نموذجًا تعلم بالفعل LAS‏ التعرف على الوجوه وأعدنا تدريب هذا النموذج 
لاكتشاف الوجه العابس » فيمكننا تحقيق نفس النتيجة باستخدام بيانات أقل 
giis‏ 

ai e‏ أفضل للنموذج: يؤدي استخدام التعلم الانتقالي في النموذج إلى إعداد 
النموذج للأداء المناسب مع البيانات غير المدربة. يمكن تعميم النماذج المدربة 
على نقل التعلم بشكل أفضل من مهمة إلى أخرى. ee‏ مدربون على تحديد 
الميزات التى يمكن استخدامها فى سياقات جديدة. 

e‏ يزيد من الوصول إلى التعلم العميق: العمل مع التعلم الانتقالي يجعل التعلم 
العميق أسهل في الاستخدام. يمكن أن يؤدي استخدام نموذج تم إنشاؤه بواسطة 
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خبير التعلم العميق وتطبيقه على مشكلة جديدة إلى تحقيق نتائج جيدة دون 
امتلاك مهارات التعلم العميق. 


استراتيجيات التعلم الانتقالي العميق 


يمكن تطبيق التعلم الانتقالي من خلال عدة استراتيجيات مختلفة في فضاء التعلم العميق 
والآلي. في هذا القسم c‏ ندرس تقنيات التعلم العميق فقط. هناك ثلاث استراتيجيات 
رئيسية لاستخدام التعلم الانتقالي العميق: 


e نقل الميزة: من أسهل الطرق لتعلم النقل هو نقل الميزات. كما نعلم جميعًا‎ e 
التعلم‎ OY طبقات. هذه الطبقات مهمة.‎ ide تتكون شبكة التعلم العميق من‎ 
العميق عبارة عن بنية ذات طبقات تتعلم ميزات مختلفة في طبقات مختلفة.‎ 
أولاً هناك طبقة الإدخال التي تحدد الإدخال إلى الطبقة التالية. ثم طبقة استخراج‎ 
المعالم او الميزات « والتي تحتوي على عدة طبقات داخلية. استخراج ميزات‎ 
طبقة الإخراج هي "ميزات" يمكن أن تمثل » على سبيل المثال » ملامح وجه‎ 
الشخص . مثل العينين أو الأنف أو الفم . ويمكن بعد ذلك استخدامها بشكل‎ 
هرمي للترجمة إلى ميزات ذات مستوى أعلى. تخلط طبقة التصنيف النهائية‎ 
وتصنف الميزات الموجودة في طبقة استخراج المعالم. على سبيل المثال » هل‎ 
تمثل الصورة المدخلة وجهًا بشريًا؟ يتم تحويل كل ميزة من الميزات المختلفة‎ 
التي تم إنشاؤها إلى مخرجات في طبقة التصنيف. تتمثل الفكرة وراء نقل‎ 
الميزات في تعليم طبقة تصنيف جديدة لنطاق المشكلة من طبقات الإدخال‎ 
واستخراج الميزات المدربة في مجموعة بيانات معينة. وهكذا . على سبيل‎ 
المثال . يمكن أن تحتوي شبكة التعلم العميق المستخدمة لاكتشاف سيارة في‎ 
صورة ما على طبقة تصنيف مدرَبة للتعرف على الدراجة. هذه الطريقة مثالية إذا‎ 
كانت منطقتا المشاكل متماثلتين.‎ 

e‏ الضبط_الدقيق: يمكن أن يعني الضبط_الدقيق أننا نعلم الطبقات التالية من 
شبكة التعلم العميق مع الحفاظ على الطبقات السابقة ثابتة. بهذه الطريقة . نقوم 
بضبط الطبقات الخاصة بخصائص التصنيف مقارنة بالطبقات السابقة « والتى 
تكون أكثر عمومية. a ds al da‏ عدي كر leis Utell oM le‏ 
وتتطلب ميزات جديدة ليتم تصنيفها. 
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e‏ نهج نموذج مدرب مسبقا: Gag‏ أبسط استراتيجية لحل المشكلات إلى 
استخدام نموذج مدرب Giono‏ مباشرة في مهمة المصدر. dole‏ ما تكون هذه 
النماذج عبارة عن شبكات عصبية كبيرة بها ملايين المعاملات التي تم تدريبها 
لأيام أو حتى أسابيع على أجهزة متقدمة. 


ماهو النموذج المدرب؟ 


أحد المتطلبات الأساسية للتعلم الانتقالي هو وجود نماذج تؤدي Flai‏ جيدا في مهام 
المصدر. لحسن الحظ » يؤمن عالم التعلم العميق بالمشاركة. تمت مشاركة العديد 
من أبنية التعلم العميق الأكثر تقدمًا من قبل فرق في مجموعة متنوعة من المجالات. 
مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية . وهما مجالان شائعان للتعلم العميق. 


النموذج عبارة عن شبكة مخزنة RÀ‏ مسبقاً تم تدريبها بالفعل ومشاركتها على 
مجموعة بيانات كبيرة تحتوي على ملايين المعاملات في حالة مستقرة. لحل مشكلة 
ماء يجب أن يكون لدينا نموذج مدرب مسبقًا لمشكلة مماثلة. بدلاً من بناء نموذج 
من الصفر لحل مشكلة مماثلة c‏ نستخدم النماذج المدربة مسبقًا على مشكلة أخرى 
كنقطة بداية. يمكنك استخدام النموذج المدرب مسبقا كما هو أو استخدام اد 
c f y P‏ عابي قو f‏ 
الانتقالى لتخصيص هذا النموذج لمهمة محددة. 


تجدر الإشارة إلى أنه يجب توخي الحذر عند اختيار نموذج مدرب مسبقا. إذا 
كان بيان المشكلة المطروحة مختلقًا GLS‏ عن الاقتراح الذي يتم فيه تدريب النموذج 
على المشكلة » فإن التنبؤ الذي نتخذه سيكون غير دقيق للغاية. 


اعتمادًا على حجم مجموعة البيانات الجديدة والتشابه بين مجموعة البيانات 
الجديدة ومجموعة البيانات الأصلية » ستكون طريقة استخدام التعلم الانتقالي 
مختلفة. ستساعدك السيناريوهات الأربعة التالية على تحديد كيفية استخدام 
النموذج المدرب مسبقاً: 


1. حجم مجموعة البيانات صغير » في حين أن أوجه التشابه في البيانات كبيرة 
Á>‏ في هذه الحالة بالذات . ليست هناك حاجة للحفاظ على النموذج. 
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ASAI على‎ thy » أوجه التشابه في البيانات عالية جداً. ومع ذلك‎ oY 
استخدمنا‎ x نحتاج إلى تخصيص طبقات الإخراج وتعديلها. في هذه الحالة‎ 
النموذج المدرب مسبقًا كمستخرج للميزات.‎ 

2. حجم مجموعة البيانات صغير والتشابه في البيانات صغير Me‏ في هذه 
الحالة > يجب علينا أولاً تثبيت الطبقات الأولية للنموذج المدرب مسبقا 
في مكانها. ثم قم بإعادة تعليم الطبقات المتبقية. من الجدير بالذكر أن 
الطبقات العليا يتم تخصيصها Giy‏ لمجموعة البيانات الجديدة. c DAÍ‏ 
تظل الطبقات الأولية مدربة مسبقًا نظرًا لصغر حجمها والحفاظ على ثبات 
أوزانها. 

3. حجم مجموعة البيانات كبير ولكن تشابه البيانات صغير m‏ في هذه 
الحالة « سيكون تدريب الشبكة العصبية أكثر فعالية. نظرًا لأن لدينا مجموعة 
بيانات كبيرة » وبما أن البيانات التي نستخدمها تختلف عن بيانات 
التدريب» فمن الأفضل تدريب الشبكة العصبية Ely‏ على بياناتنا من البداية. 

4. حجم مجموعة البيانات كبير وأيضًا أوجه التشابه في البيانات كبيرة جدا. 
يمكن القول أن هذا هو الوضع النهائي والمثالي. تعتبر النماذج المدربة 
Ge‏ أكثر فعالية في هذا الصدد. 


مناهج التعلم الانتقالي العميق 


يفحص التعلم الانتقالي العميق كيفية استخدام المعرفة بالمجالات الأخرى من قبل 
الشبكات العصبية العميقة. استنادًا إلى التقنيات المستخدمةني التعلم الانتقالي العميقء 
يمكن تصنيف التعلم الانتقالي العميق إلى أربع فتات: التعلم العميق القائم على sal‏ 
التعلم العميق القائم على الخصومة: التعلم العميق القائم على التخصيص. والتعلم 
الانتقال العميق القائم إلى الشبكة. 


التعلم الانتقالي العميق القائم على العينة 


مناهج التعلم الانتقالي القائمة على العينات هي إعادة استخدام البيانات المصنفة من 
المجال المصدر لتعليم نموذج أكثر دقة لمهمة التعلم المستهدفة. إذاكان المجال المصدر 
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والمجال الهدف متطابقين LS‏ فيمكننا دمج بيانات المجال المصدر مباشرةً في 
اال gll‏ 


الدافع الشائع وراء مناهج التعلم الانتقالي القائم على العينة هو أن بعض البيانات 
التي تحمل اسم المجال المصدر ليست مفيدة بعد لتعلم نموذج دقيق للمجال 
المستهدف. وبعضها قد لا يكون SU‏ للاستخدام أو إذا تم استخدامه c‏ يمكن أن يضعف 
أداء النموذج المستهدف. لفهم أفضل يمكننا استخدام تحليل التباين والتحيز. 


عندما تكون مجموعة بيانات المجال الهدف صغيرة » فقد يكون للنموذج مستوى 
Jie‏ من التباين. HY‏ خطأ تعميم النموذج كبير. من خلال إضافة جزء من بيانات 
المجال المصدر كمجموعة بيانات مساعدة c‏ يمكن تقليل تباين النموذج. ومع SUS‏ إذا 
كان توزيع البيانات في المجالين مختلفًا تمامًا ‏ فقد يكون لنموذج التعلم الجديد تباين 
كبير. لذلك I] c‏ تمكنا من عزل العينات من المجال المصدر الذي يتبع نفس التوزيع 
مثل المجال الهدف « فيمكننا إعادة استخدامها وتقلي لكل من التباين والتحيز في نموذج 
التعلم المستهدف. 

يشير التعلم الانتقالي العميق القائم على العينة إلى استخدام إستراتيجية محددة 
لتعديل الوزن لاختيار عينات صغيرة من المجال المصدر كمكمل لمجموعة التدريب في 
المجال المستهدف e‏ ويستند إلى افتراض أنه على الرغم من وجود اختلافات بين مجالين؛ 
يمكن استخدام عينات ثانوية في مجال المصدر مع النطاق المستهدف بأوزان مناسبة. 
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تتمثل إحدى طرق استخدام التعلم الانتقالي في استخدام النمذجة الإنتاجية في التعلم 
العميق c‏ مما يؤدي إلى نماذج معادية. استخدام نماذج توليد غير خاضعة للإشراف لتقليل 
الاعتماد على البيانات المصنفة. في المجال الهدف » تكون البيانات المصنفة محدودة c‏ 
ولكن قد يكون هناك الكثير من البيانات غير المسماة في مجال المصدر. يمكن استخدام 
التعلم غير الخاضع للإشراف لتمثيل البيانات غير المسماة » ويمكن استخدام النماذج 
الإنتاجية لنقل المعرفة إلى المجال المستهدف. 
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يشير التعلم الانتقالي العميق القائم على الخصومة إلى التكنولوجيا العدائية 
المستوحاة من شبكات الخصومة التوليدية للعثور على تمثيلات قابلة للتحويل يمكن 
استخدامها لكل من المجال المصدر والمجال الهدف. التعلم العدائي يعمل بشكل طبيعي 
مع التعلم الانتقالي. كنموذج إنتاج » يمكن لنماذج الخصومة التوليدية أن تولد بيانات 
المجال المستهدف وتعزز البيانات في نوع جديد من التعلم الانتقالي يعرف باسم "زيادة 
البيانات". يمكن استخدام التعلم العدائي "لترجمة" عينة المجال المصدر المصنف إلى 
عينة المجال الهدف مع الاحتفاظ بعلامته . ويمكنه التواصل بين عينات المجال المصدر 
والهدف غير المراقب تمامًا. 


dye Joe WIS gll pci إلى‎ Lao idi E gl D 
goles 


التعلم الانتقالي | لعميق PJI‏ على التخصيص 


يشير التعلم الانتقالي العميق المستند إلى التخصيص (التطبيق) إلى سحب عينات من 
المجال المصدر والمجال الهدف إلى مساحة بيانات جديدة.في مساحة البيانات الجديدة 
cobs‏ تكون العينات من مجالين متشابهة ومناسبةفي شبكة عصبية مركزية. يعتمد هذا 
النهج على افتراض أنه على الرغم من وجود اختلافات بين المجالين الرئيسيين» إلا أنهما 
يمكن أن يكونا متشابهينفي مساحة بيانات جديدة. 


التعلم الانتقالي | لعميق القائم على الشبكة 


يشير التعلم الانتقالي العميق القائم على الشبكة إلى إعادة استخدام شبكة جزئية تم تدريبها 
بالفعل في مجال الموارد (بما في ذلك بنية الشبكة ومعاملات الاتصال الخاصة بها) 
ونقلها إلى جزء من الشبكة العصبية العميقة المستخدمة في المجال المستهدف. يفترض 
هذا النهج أن الشبكة العصبية تشبه آلية معالجة الدماغ البشري وهي عملية تجريدية 
متكررة ومستمرة. يمكن أن تعمل الطبقات الأمامية للشبكة كمستخرج ميزة » وتكون 
الميزات المستخرجة متعددة الاستخدامات. 
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خلاصة Jad‏ الخامس 


e‏ يعتمد التعلم العميق بشكل كبير على كميات كبيرة من البيانات للتدريب مقارنة 
بأساليب التعلم الآلي التقليدية. 


9 معظم نماذج التعلم العميق متخصصةفي مجال معين أو حتى مهمة محددة. لذلك 
من أجل حل هذه المشكلات. فإنه يحفز استخدام التعلم الانتقاليفي التعلم العميق 
لتجاوز مهام ومجالات محددة. 


e‏ يعالج التعلم الانتقالي كيف يمكن للأنظمة التكيف بسرعة مع الظروف الجديدة 
والمهام الجديدة والبيئات الجديدة. 


e‏ يتأثر مخرجات نماذج التعلم الانتقالي بالعلاقة بين المصدر والمناطق المستهدفة. 


e‏ أكبر ميزة للتعلم الانتقالي هي عندما تكون مجموعة البيانات المستهدفة صغيرة 


هناك العديد من الفوائد لاستخدام النماذج التى تم تدريبها بالفعا فى منطقة ما solely‏ 
e‏ م catal‏ كم T QUU ede‏ 


استخدامهاني منطقة أخرى. (C‏ 
أسئلة للمراجعة 5 


1. ما هو التعلم الانتقالي؟ 

2. كيف يساعد التعلم الانتقاليني التعلم الآلي؟ 

3. ما هي المعايير التي تبين أن التعلم الانتقالي كان PYLE‏ 

4. ما هي الأسئلة الثلاثة التي تدخلفي عملية التعلم الانتقالي؟ 
5. متى يكون من المناسب استخدام التعلم الانتقالي؟ 


6. لماذا يتم استخدام التعلم الانتقالىفي التعلم العميق؟ عدد فوائده؟ 
pestes‏ ا pose Idol‏ 
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7. ماهو النموذج المدرّب rss‏ وما فوائده؟ 


التعلم العميق الهندسي: 
التعلم التعثيلي بالرسم البياني 


الاهداف 
m‏ التعرف على التعلم العميق الهندسي وسبب استخدامه. 
Sell pas eS‏ الل 
د التعرف على Ki‏ الرسم البياني الالتفافية. 
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المقدمة 


يستخدم هيكل الرسم البياني للبيانات على نطاق واسعفي مجالات مختلفة مثل الكيمياء 
الحيوية ومعالجة الصور وأنظمة التوصية وتحليل الشبكة الاجتماعية وما إلى ذلك. هناك 
طرق مختلفة لتعليم نماذج التعلم الآلي على البيانات المهيكلة بالرسم البياني باستخدام 
البيانات والمهمة الحاليةء وقد ثبت أنه من الصعب استخدام هذه البياناتفي نموذج التعلم 
الآلي بسبب الحجم الكبير والطبيعة غير الإقليدية لبيانات الرسم البياني. بشكل ple‏ 
يمكن القول إن هذه الأساليب التقليدية تستخدم كخطوة معالجة مسبقةء وليست جزءًا 


حققت الشبكات العصبية العميقة نجاحًا ملحوظًا خلال العقد الماضي. ومع ذلك 
لا يمكن تنفيذ الأنواع البدائية للشبكات العصبية إلا باستخدام البيانات العادية أو 
الإقليدية. ومع ذلك. فإن معظم بيانات العالم الحقيقي لها هيكل رسم بياني غير إقليدي. 
ol‏ عدم انتظام بنية البيانات إلى تطورات حديثةفي الشبكات العصبية للرسم البياني. 


تسمح الشبكات العصبية للرسم البياني بإنشاء نموذج تعلم آلي شامل يتم تدريبه 
بشكل متزامن لتعلم تمثيل البيانات المهيكلة بالرسومات البيانية. يمكن تطبيق الشبكات 
العصبية للرسم البياني على البيانات المهيكلة بيانياً لمجموعة متنوعة من المهام. من 
التجميع إلى التصنيف أو الانحدارء ويمكنها أيضًا تعلم التمثيلات على مستوى العقدة أو 
الحافة أو الرسم البياني. 


بينما نجحت نماذج التعلم العميقفي العقد الماضيني التعامل مع المدخلات مثل الصور 
أو الكلام أو الفيديو Fly‏ على البنية الإقليدية» أصبح الباحثون مؤخرًا أكثر اهتمامًا 
باستخدام التعلم على البيانات غير الإقليدية. التعلم العميق الهندسي هو مجال بحثي 
ناشئ يسعى إلى تعميم بنية التعلم العميق للعمل مع البيانات غير الإقليدية لسد هذه 
الفجوة. 
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يمكن أن تمثل البيانات غير الإقليدية مفاهيم أكثر تعقيدًا بشكل أكثر دقة من 
التمثيلات أحادية البعد وثنائية الأبعاد. يعد الرسم البياني أحد الهياكل غير الإقليدية 
المهمة. الرسوم البيانية هي نوع خاص من بنية البيانات» تتكون من رؤوس متصلة بواسطة 
حواف. يمكن استخدام AS‏ البيانات المجردة هذه لنمذجة أي شيء تقريبًا. على سبيل 
المثالءفي الشبكات الاجتماعية» يمكن نمذجة سمات المستخدم كإشارات على رؤوس 
الرسم البياني الاجتماعي.في ple‏ الأعصاب» تستخدم نمذجة الرسم البياني لإظهار 
الهياكل الوصفية والوظيفية للدماغ. 


الرسم البياني 


في علوم الكمبيوتر, الرسم البياني (الكراف) هو بنية بيانات ذات رأسين * وحافة. يمكن 
وصف الرسم البياني G‏ على أنه G = (V, E)‏ ؛ حيث V‏ عبارة عن مجموعة من الرؤوس 
E s‏ هى مجموعة من الحواف التى تربط هذه العقد. اعتمادًا على العللاقات بين هذه 
الرؤوسء يمكن أن تكون الحواف موجهة أو غير موجهة (الشكل 1-6). 


طريقة مناسبة لعرض الرسوم البيانية هي من خلال مصفوفة الجوار AE RIVIXIVI‏ 
لتمثيل رسم بياني بمصفوفة الجوار . نقوم بترتيب العقد في الرسم البياني بحيث تقوم 
كل عقدة بفهرسة صف وعمود معين في مصفوفة الجوار. 


البيانات ذات هيكل الرسم البياني وفيرة في العالم الحقيقي ويمكن رؤيتها في كل 
مكان. على سبيل المثال © الشبكات الاجتماعية والشبكات البيولوجية والتركيبات 
الجزيئية والرسوم البيانية المعرفية وما إلى ذلك. بشكل ple‏ أي مجموعة بيانات تتضمن 
العقد والحواف هي رسم بياني. هناك أيضًا مجموعة واسعة من مشكلات التعلم المتعلقة 
بالرسوم البيانية » مثل تصنيف العقدة شبه المهيكلة » وتصنيف الرسم البياني » وتنبؤ 
الارتباط « تشخيص المجتمع 6 وتجميع الرسوم البيانية c‏ والمزيد. نظرًا لوفرة البيانات 
مع بُنية الرسم البياني ومشكلات تعلم الرسم البياني » من المهم جد دراسة كيفية التعلم 
من الرسوم البيانية. بالإضافة إلى ذلك » يعد الرسم البياني موضوعًا مهما في التعلم الآلي. 


“غالبا ما يشار إلى الرؤوس على أنها عقدة.في هذا الكتاب» نستخدم كلا المصطلحين. 


التعلم العميق: المبادئ والمفاهيم والاساليب 


هذا لأن العديد من نماذج التعلم الآلي , مثل الشبكات العصبية وشبكات بايزي » تتحقق 
من خلال الحسابات على الرسوم البيانية. 


X 


(1) 


الشكل 1-6 (All)‏ الرسم البياني الموجه (ب) الرسم البياني غير الموجه 


ومع ذلك » فإن البيانات التي تحتوي على بنية الرسم البياني معقدة للغاية لدرجة أنها 
تفرض العديد من التحديات على خوارزميات التعلم الآلي الحالية. تنشأ هذه المشكلة 
oy‏ أدوات التعلم الآلي التقليدية والتعلم العميق تتخصص في أنواع البيانات البسيطة ؛ 
مثل الصور التي لها نفس الهيكل والحجم . والتي يمكن أن نفكر فيها على أنها رسوم 
SL‏ ذات حجم ثابت . أو نص وكلام يحتويان على بيانات متسلسلة يمكننا اعتبارها 
رسوم بيانية خطية. ومع ذلك e‏ هناك رسوم بيانية أكثر تعقيدا ؛ لا يوجد شكل ثابت 
وحجم متغير للعقد غير المهيكلة > حيث يمكن أن يكون للعقد جيران مختلفة. 


lilo‏ يصعب تحليل الرسوم البيانية؟ 


الرسوم البيانية لها خصائص غير إقليدية. هذا يعني أنه لا يمكننا تمثيلهم بأي نظام 
إحداثيات نعرفه. وهذا يجعل تفسير بيانات الرسم البياني أكثر صعوبة من تفسير البيانات 
في شكل صور وموجات وساسلة زمنية. بالإضافة إلى ذلك » لا تحتوي الرسوم البيانية 
على شكل ثابت. انظر الشكل 2-6 للحصول على مثال. الرسم البياني D‏ والرسم البياني 
(ب) مختلفان GLS‏ من الناحية الهيكلية والمرئية. ولكن عندما نحولهم إلى مصفوفات 
متجاورة . فإن رسمين بيانيين للمصفوفات المتجاورة لهما نفس الشيء P‏ افتراض 
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ol‏ لا Ab‏ فى الاعتبار وزن الحواف). إذن » هل يجب اعتبار هذين الشكلين مختلفي: 


أخيرًا » من الصعب عمومًا تصور رسم بياني للتفسير البشري. لا نعني الرسوم البيانية 
الصغيرة مثل الأمثلة أعلاه. هناك رسوم بيانية ضخمة تحتوي على مئات أو آلاف العقد. 


البيانى حتى بالنسبة للإنسان. لذلك . يعد تدريب آلة على هذه المهمة أمرًا Care‏ 


ply 


الشكل 2-6 رسم Sly‏ بتمثيل هيكلي ومرئي مختلف 


شبكات الرسم البياني العصبية 


على عكس الصور Ve‏ تحتوي البيانات المهيكلة على الرسم البياني على تمثيل موتر 
يمكن قراءته بسهولة بواسطة الشبكات العصبية العادية. هذا يحد من استخدام التعلم 
العميق للعمل مع الرسوم البيانية. 


تتطلب معماريات الشبكات العصبية التقليدية » مثل الشبكات العصبية امامية 
التغذية. والشبكات العصبية الالتفافية » والشبكات العصبية المتكررة e‏ إشارات إدخال 
يتم عرضها بأشكال ذات أحجام. Gedy‏ لذلك « تكون طبقات الشبكة العصبية قادرة على 
استخراج الميزات بشكل هرمي وتعلم الأنماط من البيانات. على الرغم من أن هذه 
الشبكات العصبية قد حققت نجاحًا كبيرًا في أنواع مختلفة من البيانات » إلا أنه لا يمكن 
تطبيق هذه الشبكات العصبية العادية مباشرة على الرسوم البيانية. في الوقت نفسه . يعتقد 
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الباحثون أن التعلم العميق للعمل مع الرسوم البيانية هو مجال رائع يمكن من خلاله اختبار 
أساليب الشبكة العصبية الجديدة. 


شبكات الرسم البياني العصبية هي مجموعة من طرق التعلم العميق المصممة 
خصيصًا لاستنتاج البيانات الموصوفة بالرسوم البيانية. من المستحسن إنشاء نماذج تعمل 
مباشرة على الرسوم البيانية. OY‏ يمكننا الحصول على مزيد من المعلومات حول هيكلها 
وخصائصها. 


يتم تطبيق شبكات الرسم البياني العصبية مباشرة على الرسوم البيانية وتوفر طريقة 
سهلة لأداء المهام مثل التنبؤ بمستوى العقد والحواف والرسوم البيانية. قبل تطوير شبكات 
الرسم البياني العصبيةء لم يكن لأساليب التعلم العميق القدرة على تطبيقها على الحواف 
لاستخراج المعرفة والتنبؤ. بدلا من ذلك تصرفوا فقط ely‏ على خصائص العقدة. 


تمثل كل عقدةني الرسم البياني مجموعة من السمات التي يتم تحديدها بواسطة 
العقدة والمرتبطة بمجموعة من العلامات. ثم تستخدم شبكة الرسم البياني العصبية 
لتدريب الأوزان التى يمكن استخدامها للتنبؤ بالعلامات للعقد الجديدة. تعمل شبكات 
adi shel e‏ هن Usb.‏ العقد بشكل متكرر واستخدام الشبكات 
العصبية أمامية التغذية ونقل الرسائل. 


الشبكات العصبية لنقل الرسائل! 


شبكات الرسم البياني العصبية لها العديد من الصيغ المستقلة. ومع AUS‏ يمكن دمجها 
في إطار عمل نقل الرسائل2. الشبكة العصبية لنقل الرسائل هي نوع من نماذج الشبكة 
العصبية المصممة خصيصا للعمل على الرسوم البيانية. بالنظر إلى الرسم البياني غير 
الموجه G‏ مع خصائص العقدة «xy‏ عادة ما يتكون الإرسال الأمامي لشبكة الرسم البياني 
العصبية من مرحلتين: مرحلة إرسال الرسائل» والتي تستخدم لاستخراج خصائص LÅ‏ 


1 Message Passing Neural Networks (MPNN) 
? message passing framework 


الفصل السادس: التعلم العميق الهندسى 


التحتية المحلية حول العقد» ومرحلة الاسترجاع! وهي مرحلة تجميع لتلخيص 
الخصائص الفردية للعقدةفي متجه لسمات سطح الرسم البياني. 


يتم تنفيذ مرحلة نقل الرسالة (الرسم البياني الالتفافي) في عدد تكرارات T‏ وتتضمن 


دوال رسالة My‏ ودوال تحديث Uy‏ في كل مرحلة من مراحل نقل الرسائل c‏ يتم تحديث 
الحالات المخفية لرؤوس Fly AS‏ على m$ foley‏ 


mi*- Mz) 


ucr(v) 


hy** = U,(hy, mt?) 


حيث تُظهر T(V)‏ مجموعة الجيران V‏ في الرسم البياني. Me‏ و U,‏ كلاهما دالات مشتقة 
مع معاملات قابلة للتعلم. 


في مرحلة الاسترجاع . يتم تطبيق دالة الاسترجاع +1 على مجموعة الحالات الكامنة 
النهائية RT‏ لإجراء التنبؤ على النحو التالي: 


f = R((h;|veG]) 


تعمل دالة الاسترجاع dole‏ عن طريق إنشاء تمثيل واحد للرسم البياني بأكمله مع 
مراعاة الحالات المخفية النهائية sh‏ 


h=) hl 


بعد ذلك » يتم تطبيق الشبكة العصبية امامية التغذية f‏ إلى ۸ على الإخراج: 


9 = f(R) 


1 readout phase 
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يمكن النظر إلى نقل الرسائل على أنه عامل تشغيل التفافي يستخدم لاستخراج 
الخصائص المحلية على العقد. على غرار ما تفعله الشبكة العصبية التقليدية للمزامنة 
لكل بكسل. يمكن تضمين معظم الشبكات العصبية الموجودة في الرسم البياني في هذا 
الإطار. تكمن الاختلافات في التصميم الفريد ل Me‏ و Up‏ في الأعمال الكامنة المختلفة. 
على سبيل المثال . يمكن أن تكون Mr‏ عبارة عن مجموع أو متوسط e‏ أو يمكن أن تكون 
من يُنى الشبكات العصبية المعقدة مثل AUT‏ الانتباه و RNN‏ يمكن Cal‏ تقييد دالة 
التحديث Up‏ من طبقة خطية أحادية الطبقة إلى بيرسيبترون متعدد الطبقات ل .GRU‏ 


تعلم تمثيل الرسم البياني 


يعرف التعلم العميق للعمل مع البياناتفي شكل رسوم بيانية Carl‏ بالتعلم العميق 
الهندسي" أو تعلم تمثيل الرسم البياني2 أو تضمين الرسم البياني3 الذي يسعى إلى تعلم 
تمثيل المعلومات الهيكلية حول الرسم البياني. الغرض من تعلم تمثيل الرسم البياني هو 
بناء مجموعة من الميزات التي تمثل هيكل الرسم البياني والبيانات الواردة فيه. تكمن 
الفكرة وراء هذه الطريقةفي تعلم التخصيص الذي يدمج العقد أو الرسوم البيانية كنقاطفي 
مساحة متجهية صغيرة» بحيث يتم تحسين التخصيص التي يعكس العلاقات الهندسية 
المكتسبةفي فضاء بنية الرسم البياني الأصلي. بعد تحسين المساحة المضمنة» يمكن 
استخدام هذا التضمين الذي تم تعلمه لتلقي ميزات الإدخال الخاصة بالتعلم الآلي. 


الفرق الرئيسي بين مناهج التعلم التمثيلي والاعمال السابق هو كيفية تعاملهم مع 
مشكلة تسجيل المعلومات الهيكلية حول الرسوم البيانية. في الماضي . تم اعتبار هذه 
المشكلة كخطوة معالجة مسبقة . باستخدام الهندسة الإحصائية اليدوية لاستخراج 
المعلومات الهيكلية. في المقابل . تترك مناهج التعلم التمثيلي هذه المشكلة للتعلم 
العميق. باستخدام نهج قائم على البيانات لتعلم التضمين الذي يشفر بنية الرسم البياني. 


1 geometric deep learning 
? graph representation learning 
3 graph embedding 
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1 سبكة pow Jl‏ البياني الالتفافية 


مثل إدخال شبكات العصبية الالتفافية التي تساعد على تسريع التعلم وزيادة الدقة من 
خلال معالجة البيانات الهرمية c‏ فإن شبكات الرسم البياني تفعل الشيء نفسه ولكن في 
بيانات الرسم البياني. شبكات الرسم البياني الالتفافية عبارة عن مجموعة من الشبكات 
العصبية القوية جدًا التي تستخدم عمليات الالتفاف » وهي المشغل الرئيسي في نماذج 
الشبكة العصبية الالتفافية . لاستخراج أنماط ذات دلالة إحصائية من بيانات الرسم البياني 
الهيكلية » ويتم تنفيذها بشكل جيد للغاية بأقل قدر من التدريب. 


في الواقع إنها قوية جد لدرجة أنه حتى شبكة الرسم البياني الالتفافية المكونة من 
طبقتين والتي تمت تهيئتها بشكل عشوائي يمكن أن تمثل خصائص مفيدة للعقد. بشكل 
عام» تجد شبكات الرسم البياني الالتفافية esas‏ جديدا لكل رأس من الرسم البياني من 
خلال تجميع خصائص جيرانها. يمكن تعميم الالتفاف ثنائي الأبعاد على التفاف الرسم 
NM‏ 

كما هو مبينفي الشكل 3—6 يمكن اعتبار الصورة كحالة خاصة للرسم البياني حيث 
يتم توصيل وحدات البكسل بوحدات البكسل المجاورة. يعتبر تسلسل الرسم البياني أن 
كل رأس هو بكسل ويجمع خصائص رأس الهدف وجيران رأس الهدف. 


شبكات الرسم البياني العصبية هي بلا شك أهم موضوعفي التعلم العميق القائم على 
الرسم البياني. تتعلم هذه الشبكات الحديثة. عن طريق محاكاة الشبكات العصبية 
الالتفافيةء الأنماط الهيكلية المحلية والعالمية للرسوم البيانية من خلال دوال الالتفاف 
والاسترجاع المصممة. يتمثل الاختلاف الرئيسى بين شبكات الارتباط العصبية وشبكات 
الرسم البياني الالتفافيةفي أن الشبكات العصبية الالتفافية مصممة Canad‏ للعمل على 
البيانات ذات البنية العادية (الإقليدية). من ناحية أخرىء فإن شبكات الرسم البياني 
الالتفافية هى إصدارات معممة من الشبكات العصبية الالتفافية التى تحتوي البيانات فيها 
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الشكل 3-6 الالتفاف ثنائي الأبعاد (الشكل الأيسر) مقابل التفاف الرسم البياني (الشكل الأيمن). 


يمكن تصنيف شبكات الرسم البياني الالتفافية إلى مجموعتين رئيسيتين: شبكات 
الرسم البياني الالتفافية الطيفية وشبكات الرسم البياني الالتفافية المكانية2. يتم تفسير 
المناهج الطيفية من خلال إدخال فلاتر من منظور معالجة إشارة الرسم البياني Ely‏ على 
النظرية الطيفية للرسم البياني» حيث تستخدم عملية الاقتران لإزالة الضوضاء من إشارات 
الرسم البياني. تقوم الالتفافات المكانية. من خلال جمع المعلومات من العقد المجاورة, 
بصياغة التفاف الرسم البياني مباشرة. يلتقط الالتفاف المكاني العقدة وجيرانها للحصول 
على تمثيل جديد لها. تتمثل الطريقة الشائعة للقيام GUL‏ تكديس عدة طبقات من 
تداخل الرسم البياني. 


من حيث قابلية التوسع والتوازي ٠‏ تزيد الطرق الطيفية ذات حجم الرسم البياني 
بشكل كبير وتتطلب الرسم البياني بأكمله في الذاكرة. لذلك e‏ هذه الأساليب ليست مناسبة 
للبيانات واسعة النطاق مع مليارات العقد (على سبيل المثال » الرسوم البيانية للشبكة 
الاجتماعية) أو البنى الموازية. في المقابل » لا تعاني الطرق المكانية من هذه المشكلة. 
هذا لأنها تتكامل مباشرة في حقل الرسم البياني من خلال دمج خصائص الجوار حتى 
يتمكنوا من التعامل مع الرسوم البيانية الكبيرة. 


1 Spectral 
? Spatial 


الفصل السادس: التعلم العميق الهندسى 


من وجهة نظر تعميم النماذج e‏ تنظر النماذج القائمة على الطيف في الرسم البياني 
الثابت وليست بارعة في تعميم الرسوم البيانية غير المرئية. لا تحتوي الطرق المكانية 
على هذا القيد OY‏ مزامنتها تتم محليًا. لذلك c‏ يمكن بسهولة مشاركة الأوزان المستخدمة 
فى التقارب فى أماكن وهياكل مختلفة. 


duel‏ تقتصر الطرق الطيفية على العمل على الرسوم البيانية بلا اتجاه. من ناحية 
أخرى. يمكن GLU‏ المكانية التعامل مع المدخلات متعددة المصادر والرسوم البيانية 
الاتجاهية عن طريق تغيير دالة التجميع. بسبب العوامل المذكورة. اجتذبت النماذج 
المكانية اهتمامًا Gle‏ أكبر من النماذج الطيفية. 


wal padi خلاصة‎ 


e‏ التعلم العميق الهندسي هو مجال بحثي ناشئ يسعى إلى تعميم بُنية التعلم العميق 
للعمل مع البيانات غير الإقليدية. 


e‏ يعد الرسم البياني أحد الهياكل غير الإقليدية المهمة. 

e‏ البيانات ذات هيكل الرسم البياني وفيرةفي العالم الحقيقي ويمكن رؤيتهاني كل مكان. 

9 يتم تطبيق شبكات الرسم البياني العميقة مباشرة على الرسوم البيانية وتوفر طريقة 
سهلة لأداء المهام مثل التنبؤ بمستوى العقد والحواف والرسوم البيانية. 

+ الشبكةا لعصبية لنقل الرسائل هي نوع من نماذج الشبكة | لعصبية المصممة Comat‏ 
للعمل على الرسوم البيانية. 


e‏ الغرض من تعلم تمثيل الرسم البياني هو بناء مجموعة من الميزات التي تمثل هيكل 
الرسم البياني والبيانات الواردة فيه. 
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أسئلة للمراجعة Ç‏ 


O 


1. لماذا من المهم دراسة البيانات بهيكل الرسم البياني؟ 


2. وصف تحديات العمل مع الرسوم البيانية؟ 


3. كم عدد المراحل التي تتكون منها الشبكة العصبية لنقل الرسائل؟ اشرح كيف تعمل 
كل مرحلة من هذه المراحل؟ 


4. ما هو الغرض من تعلم تمثيل الرسم البياني؟ 
5. ما هو الفرق بين مناهج التعلم التمثيلي والعمل الماضي؟ 


6. قم بتسمية ومقارنة مجموعتين رئيسيتين من شبكات الرسم البياني الالتفافية؟ 
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